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序言 


天 于 分 布 式 系统 的 知识 ， 可 以 从 大 学 教科 书 上 找到 ， 许 多 人 还 知道 Andrew 
S.Tanenbaum 等 人 在 2662 年 出 版 的 “分 布 式 系统 原理 与 学 型 ” ( Distributed 
Systems : Principles and Paradigms ) 这 本 书 。 其 实 分 布 式 系统 的 理论 出 现 于 
上 个 世纪 7e6 年 代 , "Symposium on Principles of Distributed 

Computing ( PODC ) ”和 “International Symposium on Distributed 
Computing ( DISC ) ”这 两 个 分 布 式 领域 的 学 术 会 议 分 别 创立 于 1982 年 和 1985 年 。 
然而 ， 分 布 式 系统 的 广泛 应 用 却 是 最 近 十 多 年 的 事情 ， 其 中 的 一 个 原因 残 是 人 类 活 
动 创造 出 的 数据 量 远 远 超出 了 单个 计算 机 的 存储 和 处 理 能 力 。 比 如 ，2688 年 全 球 互 
联网 的 网 页 超过 了 1 万 亿 ， 按 平均 单个 网 页 16KB 计 算 ， 就 是 16PB ; 又 如 ， 一 个 2 亿 用 
户 的 电信 和 运营 商 ， 如 果 平 均 每 个 用 户 每 天 拨打 接听 总 共 16 个 电话 ， 每 个 电话 466 字 
节 ，5 年 的 话费 记录 总 量 即 为 8.26x16x6.4Kx365x5=1.46PB。 除 了 分 布 式 系统 ， 
人 们 还 很 难 有 其 他 高 效 的 手段 来 存储 和 处 理 这 些 PB 级 甚至 更 多 的 数据 。 另 外 一 个 原 
, 其 实 是 一 个 可 悲 的 事实 ， 那 束 是 分 布 式 环境 下 的 编程 十 分 困难 。 


与 单机 环境 下 的 编程 相 比 ， 分 布 式 环境 下 的 编程 有 两 个 明显 的 不 同 : 首先 ， 分 布 式 
环境 下 会 出 现 一 部 分 计算 机 工作 正常 ， 另 一 部 分 计算 机 工作 不 正常 的 情况 ， 程 序 需 
要 在 这 种 情况 下 尽 可 能 地 正常 工作 ， 这 个 挑战 非常 大 。 其 次 ， 蛙 机 环境 下 的 冰 数 调 
用 弟 常 可 以 在 微 秒 级 内 返回 ,所 以 除了 少数 访问 外 部 设备 ( 例如 磁盘 、 网 卡 等 ) 的 


消 数 及 用 异步 方式 调用 外 ， 大 部 分 尔 数 及 用 同步 调用 的 方式 ， 编 译 器 和 操作 系统 在 
调用 前 后 目 动 保存 与 恢复 程序 的 上 下 文 ; 在 分 布 式 环 境 下 ， 计 算 机 之 间 的 函数 调用 
( 远程 调用 ， 即 RPC ) 的 返回 时 间 通 常 是 毫秒 或 亚 之 秒 (6.1~1.6 坚 秒 ) 级 ， 差 不 
多 是 单机 环境 的 168 售 ， 使 用 同步 方式 远 远 不 能 发 挥 现 代 CPU 处 理 器 的 性 能 ， 所 以 分 
布 式 环境 下 的 RPC 通 常 采 用 异步 调用 方式 ， 程 序 需要 自己 保存 和 恢复 调用 前 后 的 上 下 
文 ， 并 需要 处 理 更 多 的 异常 。 


基于 上 述 原因 ， 很 多 从 事 分 布 式 系 统 相关 的 开 友 、 测 试 、 维 护 的 朋友 十 分 渴望 了 解 
和 学 习 其 他 分 布 式 系统 的 实践 ， 可 是 ， 这 些 信息 分 散在 浩瀚 的 知识 海洋 中 ， 获 取 感 
兴趣 的 内 容 相 当 困 难 。 因 此 ， 传 辉 的 “大 规模 分 布 式 存储 系统 ”一 书 出 现 得 恰 如 其 
时 ， 这 是 我 见 过 的 讲解 分 布 式 系统 实践 最 全 面 的 一 本 书 。 它 不 仅 介 绍 了 当前 业界 最 
常见 的 分 布 式 系统 ， 还 结合 了 作者 自己 六 年 多 来 的 分 布 式 系 统 开 友 实 践 。 里 然 这 本 
书 没有 、 也 不 可 能 包含 分 布 式 系统 实践 的 所 有 内 容 ， 但 阅读 这 本 书 的 人 一 定 会 深 受 
启发， 并 且 还 能 够 知道 去 何 处 获取 更 深层 次 的 信息 和 知识 。 

阳 振 坤 


阿里 巴巴 高 级 研究 员 ， 基 础 数据 部 负责 
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随 着 社交 网 络 、 移 动 瑟 联网、 电子 商务 等 技术 的 不 断 友 展 ， 互 联网 的 使 用 者 页 献 了 
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式 系统 用 于 数据 的 人 存储 、 计 算 以 及 价值 提取 。Goog1le 是 全 球 最 大 的 互联 网 公司 ， 也 
是 在 分 布 式 扩 术 上 相对 成 就 的 公司 ， 其 公布 的 Google 分 布 式 文件 系统 GFS、 分 布 式 
计算 系统 MapReduce、 分 布 式 表格 系统 Bigtable 都 成 为 业界 亮相 模仿 的 对 象 ， 最 近 
公布 的 全 球 数据 库 sSpanner 更 是 能 够 支持 分 布 在 世界 各 地 上 百 个 数据 中 心 的 上 百 万 
台 服 务 器 。Googl1e 的 核心 技术 正 是 后 端 这 些 处 理 海量 数据 的 分 布 式 系 统 。 和 Google 
类 似 ， 国 外 的 亚马逊 、 微 软 以 及 国内 互联 网 三 巨头 阿里 巴巴 、 百 度 和 腾讯 的 核心 近 
术 也 是 其 后 端的 海量 数据 处 理 系统 。 


本 书 的 内 容 是 介绍 互联 网 公司 的 大 规模 分 布 式 存储 系统 。 与 传统 的 高 端 服 务 器 、 高 
端 存 储 器 和 高 端 处 理 器 不 同 的 是 ， 互 联网 公司 的 分 布 式 存储 系统 由 数量 众多 的 、 低 
成 本 和 高 性 价 比 的 普通 PC 服务 器 通过 网 络 连接 而 成 。 互 联网 的 业务 发 展 很 快 ， 而 且 
注重 成 本 ， 这 就 使 得 存储 系统 不 能 依靠 传统 的 纵向 扩展 的 方式 ， 即 先 买 小 型 机 ,不 
够 时 再 买 中 型 机 ， 甚 至 大 型 机 。 互 联网 后 端的 分 布 式 系统 要 求 支持 横向 扩展 ， 即 通 
过 增加 普通 PC 服务 器 来 提高 系统 的 整体 处 理 能 力 。 普 通 PC 服务 器 性 价 比 高 ， 故 障 率 
也 高 ， 需 要 在 软件 层面 实现 自动 容错 ， 保 证 数据 的 一 致 性 。 另 外 ， 随 着 服务 器 的 不 
新 加 入 ， 需 要 能 够 在 软件 层面 实现 目 动 负载 均衡 ， 使 得 系统 的 处 理 能 力 得 到 线性 扩 
展 。 


分 布 式 存储 和 当今 同样 备 受 关注 的 云 存 储 和 大 数据 又 是 什么 关系 呢 ? 分 布 式 存储 是 
基础 ， 云 存储 和 大 数据 是 构建 在 分 布 式 存储 之 上 的 应 用 。 移 动 终端 的 计算 能 力 和 存 
储 空间 有 限 ， 而 且 有 在 多 个 设备 之 间 共 享 资源 的 强烈 的 需求 ， 这 就 使 得 网 盘 、 相 册 
等 云 存 储 应 用 很 快 流行 起 来 。 然 而 ， 万 变 不 离 其 宗 ， 云 存储 的 核心 还 是 后 端的 大 规 
模 分 布 式 仓 储 系统 。 大 数据 则 更 近 一 步 ， 不 仅 需 要 存储 海量 数据 ， 还 需要 通过 合适 
的 计算 框架 或 者 工具 对 这 些 数据 进行 分 析 ， 抽 取 其 中 有 价值 的 部 分 。 如 果 疫 有 分 布 


陈仓 储 ， 便 谈 不 上 对 大 数据 进行 分 析 。 仔 细 分 析 还 会 友 现 ， 分 布 式 仓储 技术 是 互联 
网 后 端 染 构 的 “ 九 阳 神 功 ”， 掌 握 了 这 项 技能 ， 以 后 理解 其 他 技术 的 本 质 会 变 得 非 
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分 布 式 存 储 拷 术 如 此 重要 ， 市 面 上 也 有 很 多 分 布 式 系统 相关 的 书籍 。 然 而 ， 这 些 书 
籍 往往 注重 理论 不 重 实 践 ， 且 所 述 理论 也 不 太 适 合 互联 网 公司 的 大 规模 仓储 系统 。 
这 是 因为 ， 虽 然 分 布 式 系统 研究 了 很 多 年 ， 但 是 大 规模 分 布 式 仓 储 系统 是 在 近 几 年 
才 流行 起 来 ， 而 且 起 源 于 以 Google 为 首 的 企业 界 而 非 学 术 界 。 笔 者 2687 年 年 底 加 入 
百度 公司 ， 师 从 阳 振 坤 老师 ,从事 大 规模 分 布 式 存 储 的 研究 和 实践 工作 ， 曾 经 开发 
过 类 似 GFS、MapReduce 和 Bigtable 的 分 布 式 系统 ， 后 来 转战 阿里 巴巴 继续 开 友 分 
布 式 数 据 库 oceanBase， 维 护 分 布 式 技术 博客 

NosqlNotes (http://www.nosqlnotes.net) 。 笔 者 在 业余 时 间 阅 读 并 理解 了 绝 
大 部 分 分 布 式 系统 原理 和 各 大 互联 网 公司 的 系统 沁 型 相关 论文 ， 深 知 分 布 式 仓储 系 
统 的 复杂 性 ， 也 能 够 体会 到 广大 读者 渴望 弄 清楚 分 布 式 存储 技术 本 质 和 实现 细节 的 
据 切 心情 ， 因 而 集中 精力 编写 了 这 本 书 ， 希望 对 从 事 分 布 式 存储 应 用 的 技术 人 员 有 
所 神 益 。 

本 书 的 目标 是 介绍 互联 网 公司 的 大 规模 分 布 式 存储 系统 ， 共 分 为 四 篇 : 

e 基 础 篇 。 基 础 知识 包含 两 个 部 分 : 单机 存储 系统 以 及 分 布 式 系统 。 其 中 ， 单 机 存储 
系统 的 理论 基础 是 数据 库 技 术 ， 包 括 数 据 模 型 、 事 务 与 并 发 控制 、 故 障 恢复 、 存 储 
引擎 、 数 据 压缩 等 ; 分 布 式 系统 涉及 数据 分 布 、 复 制 、 一 致 性 、 容 错 、 可 扩展 性 等 
分 布 式 技术 。 另 外 ， 分 布 式 仓储 系统 工程 师 还 需要 一 项 基础 训练 ， 即 性 能 预 估 , 
此 ， 基 础 篇 也 会 顺 市 介绍 硬件 基础 知识 以 及 性 能 预 估 方 法 。 


e 沁 型 篇 。 这 部 分 内 容 将 介绍 Google、 亚 马 逊 、 微 软 、 阿 里 巴巴 等 各 大 互联 网 公司 


的 大 规模 分 布 式 存储 系统 ， 分 为 四 章 : 分 布 式 文件 系统 、 分 布 式 键 值 系 统 、 分 布 式 
表格 系统 以 及 分 布 式 数据 库 。 


e 详 践 篇 。 这 部 分 内 容 将 以 笔者 在 阿里 巴巴 开发 的 分 布 式 数据 库 OceanBase 为 例 详 细 
介绍 分 布 式 数据 库 内 部 实现 以 及 实践 过 程 中 的 经 验 总 结 。 


e 专 题 篇 。 云 仔 储 和 大 数据 是 近年 来 兴起 的 两 大 热门 领域 ， 其 底层 都 依赖 分 布 式 仓储 
技术 ， 这 部 分 将 简单 介绍 这 两 方面 的 基础 知识 。 


本 书 适 合 互 联网 行业 或 者 其 他 从 事 分 布 式 系统 实践 的 工程 人 员 ， 也 适合 大 学 高 年 级 
本 科 生 和 研究 生 作为 分 布 式 系 统 或 者 云 计 算 相关 课程 的 参考 书籍 。 阅 读本 书 之 前 ， 
建议 首先 理解 分 布 式 系统 和 数据 库 相 关 基 础 理论 ， 接 着 阅读 第 一 篇 。 如 果 对 各 个 互 
联网 公司 的 系统 架构 感 兴 趣 ， 可 以 选择 阅读 第 二 篇 的 某 些 章 节 ; 如 果 对 阿里 巴巴 
OceanBase 的 架构 设计 和 实现 感 兴趣 ， 可 以 顺序 阅读 第 三 篇 。 最 后 ， 如果 对 云 存储 
或 者 大 数据 感 兴趣 ， 可 以 选择 阅读 第 四 篇 的 某 个 章节 。 


感谢 阳 振 坤 老师 多 年 以 来 对 我 在 云 计算 和 分 布 式 数据 库 这 两 个 领域 的 研究 实践 工作 
的 指导 和 鼓励 。 感 谢 在 百度 以 及 阿里 巴巴 与 我 共事 多 年 的 兄弟 姐妹 ， 我 们 患难 与 
At, 一 起 实现 共同 的 梦想 。 感 谢 机 械 工业 出 版 社 的 吴 怡 编辑 、 新 浪 微 博 的 杨 卫 华 先 
生 、 百 度 的 修 震 宇 先生 以 及 支付 宝 的 童 家 旺 先 生 在 本 书 撰写 过 程 中 提出 的 宝贵 意 
见 。 


由 于 分 布 式 仓 储 技术 涉及 一 些 公司 的 商业 机 密 ， 加 上 笔者 水 平 有 限 、 时 间 较 紧 ， 所 
以 书 中 难免 存在 谬误 ， 很 多 技术 点 涉 及 的 细节 描述 得 还 不 够 详尽 ， 明 请 读者 批评 指 
正 。 可 将 任何 意见 和 建议 友 送 到 我 的 邮箱 knuthocean@163 .com， 本 书 相关 的 勘误 
和 技术 细节 说 明 也 会 发 布 到 我 的 个 人 博客 NosqlNotes。 我 的 新 浪 微 博 账号 是 “阿里 


日 照 ”， 欢 迎 读者 通过 邮件 、 博 客 或 者 微 博 与 我 交流 分 布 式 存储 相关 的 任何 问题 。 
我 也 将 密切 跟踪 分 布 式 存储 技术 的 友 展 ， 吸 收 您 的 意见 ， 适 时 编写 本 书 的 升级 版 
本 。 


杨 传 辉 
2613 年 7 月 于 北京 
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本 篇 内 容 
第 2 章 单机 存储 系统 


第 3 章 分 布 式 系统 
第 1 草 概述 


Google、Amazon、Alibaba 等 互联 网 公司 的 成 功 众生 了 云 计算 和 大 数据 两 大 热门 领 
域 。 无 论 是 云 计 算 、 大 数据 还 是 互联 网 公司 的 各 种 应 用 ， 其 后 台 基 础 设施 的 主要 目 
标 都 是 构建 低 成 本 、 高 性 能 、 可 扩展 、 易 用 的 分 布 式 存储 系统 。 


里 然 分 布 式 系统 研究 了 很 多 年 ， 但 是 ， 直 到 近年 来 ， 互 联网 大 数据 应 用 的 兴起 才 使 


得 它 大 规模 地 应 用 到 工程 实践 中 。 相 比 传 统 的 分 布 式 系统 ， 互 联网 公司 的 分 布 式 系 
统 具 有 两 个 特点 : 一 个 特点 是 规模 大 ， 另 一 个 特点 是 成 本 低 。 不 同 的 需求 造 开 了 不 
同 的 设计 方案 ， 可 以 这 么 说 ，Goog1e 等 互联 网 公司 重新 定义 了 大 规模 分 布 式 系统 。 
本 章 介绍 大 规模 分 布 式 系统 的 定义 与 分 类 。 


1.1 分 布 式 仓 储 概念 
大 规模 分 布 式 存 储 系统 的 定义 如 下 : 


“分布 式 存 储 系统 是 大 量 普通 PC 服务 器 通过 Internet 互 联 ， 对 外 作为 一 个 整体 提供 
存储 服务 。” 


分 布 式 存 储 系统 具有 如 下 几 个 特性 : 

e 可 扩展。 分布 式 存储 系统 可 以 扩展 到 几 自 台 甚 至 几 千 台 的 集群 规模 ， 而 且 ， 随 着 集 
群 规模 的 增长 ， 系 统 整体 性 能 表现 为 线性 增长 。 

e 低 成 本 。 分 布 式 存储 系统 的 自动 容错 、 上 自动 负载 均衡 机 制 使 其 可 以 构建 在 普通 PC 机 
之 上 。 另 外 ， 线 性 扩展 能 力也 使 得 增加 、 减 少 机 器 非常 方便 ， 可 以 实现 自动 运 维 。 


。 高 性 能 。 无 论 是 针对 整个 集群 还 是 单 台 服务 器 ， 都 要 求 分 布 式 存储 系统 具备 高 性 
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e 易 用 。 分 布 式 存储 系统 需要 能 够 提供 易 用 的 对 外 接口 ， 另外， 也 要 求 具备 完善 的 监 
控 、 运 维 工具 ， 并 能 够 方便 地 与 其 他 系统 集成 ， 例 如 ， 从 Hadoop 云 计算 系统 导入 数 
据 。 


分 布 式 存储 系统 的 挑战 主要 在 于 数据 、 状 态 信 息 的 持久 化 ， 要 求 在 目 动 迁移 、 上 自动 


容错 、 并 友 读 写 的 过 程 中 保证 数据 的 一 致 性 。 分 布 式 存 储 涉及 的 技术 主要 来 自 两 个 
领域 : 分 布 式 系统 以 及 数据 库 ， 如 下 所 示 : 


e 数 据 分 布 : 如 何 将 数据 分 布 到 多 台 服 务 器 才能 够 保证 数据 分 布 均匀 ? 数据 分 布 到 多 
台 服 务 器 后 如 何 实 现 跨 服务 器 读 写 操作 ? 


e 一 致 性 : 如 何 将 数据 的 多 个 副本 复制 到 多 台 服 务 器 ， 即 使 在 异常 情况 下 ， 也 能 够 保 
证 不 同 副本 之 间 的 数据 一 致 性 ? 


。 容 错 : 如 何 检测 到 服务 器 故障 ? 如 何 目 动 将 出 现 故 障 的 服务 器 上 的 数据 和 服务 迁移 
到 集群 中 其 他 服务 器 ? 


e 负 载 均衡 : 新 增 服务 器 和 集群 正常 运行 过 程 中 如 何 实现 自动 负载 均衡 ? 数据 迁移 的 
过 程 中 如 何 保证 不 影响 已 有 服务 ? 


e 事 务 与 并 上 友 控 制 : 如 何 实现 分 布 式 事务 ? 如 何 实现 多 版 本 并 友 控 制 ? 


e 易 用 性 : 如 何 设计 对 外 接口 使 得 系统 容易 使 用 ? 如 何 设计 监控 系统 并 将 系统 的 内 部 
状态 以 方便 的 形式 暴露 给 运 维 人 员 ? 


e 压 缩 /解压 缩 : 如 何 根据 数据 的 特点 设计 合理 的 压缩 /解压 缩 算法 ? 如 何平 衡 压 缩 算 
法 节省 的 存储 空间 和 消耗 的 CPU 计算 资源 ? 


分 布 式 存储 系统 挑战 大 ， 研 友 周 期 长 ， 涉 及 的 知识 面 广 。 一 般 来 讲 ， 工 程 师 如 果 能 
够 深入 理解 分 布 式 存储 系统 ， 理 解 其 他 互联 网 后 台 架 构 不 会 再 有 任何 困难 。 


1.2 分 布 式 存储 分 类 


分 布 式 仓储 面临 的 数据 需求 比较 复杂 ， 大 致 可 以 分 为 三 类 : 


e 非 结构 化 数据 : 包括 所 有 格式 的 办 公文 档 、 文 本 、 图 片 、 图 像 、 音 频 和 视频 信息 
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e 结 构 化 数据 : 一 般 和 存储 在 天 系数 据 库 中 ， 可 以 用 二 维 天 系 表 结 构 来 表示 。 结 构 化 数 
据 的 模式 ( Schema， 包 括 属性 、 数 据 类 型 以 及 数据 之 间 的 联系 ) 和 内 容 是 分 开 的 ， 
数据 的 模式 需要 预先 定义 。 


e 半 结构 化 数据 : 介 于 非 结构 化 数据 和 结构 化 数据 之 间 ，HTML 文 档 融 属于 半 结 构 化 
数据 。 它 一 般 是 目 拉 述 的 ， 与 结构 化 数据 最 大 的 区 别 在 于 ， 半 结构 化 数据 的 模式 结 
构 和 内 容 混 在 一 起 ， 没 有 明显 的 区 分 ， 也 不 需要 预先 定义 数据 的 模式 结构 。 


不 同 的 分 布 式 存储 系统 适合 处 理 不 同类 型 的 数据 ， 本 书 将 分 布 式 存储 系统 分 为 四 
类 : 分 布 式 文件 系统 、 分 布 式 键 值 ( Key-Value ) 系统 、 分 布 式 表 格 系统 和 分 布 式 
数据 库 。 


1 .分布 式 文件 系统 


互联 网 应 用 需要 存储 大 量 的 图 片 、 照 片 、 视 频 等 非 结构 化 数据 对 象 ， 这 类 数据 以 对 
象 的 形式 组 织 ， 对 象 乙 间 没有 关联 ， 这 样 的 数据 一 般 称 为 Blob (Binary Large 
obJject， 二 进 制 大 对 象 ) 数据 。 


分 布 式 文 件 系统 用 于 仓储 Bl1ob 对 象 ， 典 型 的 系统 有 Facebook Haystack 以 及 
Taobao File System ( TFS ) 。 男 外 ， 分布 式 文件 系统 也 常 作为 分 布 式 表格 系统 以 
及 分 布 式 数 据 库 的 底层 存储 ， 如 谷歌 的 G6FS (Google File System, FAX ) 
可 以 作为 分 布 式 表格 系统 G6oogle Bigtable 的 底层 存储 ,Amazon 的 EBS ( Elastic 
Block Store， 弹 性 块 存储 ) 系统 可 以 作为 分 布 式 数据 库 (Amazon RDS ) 的 底层 存 
fi. 


总 体 上 看 ， 分 布 式 文件 系统 和 存储 三 种 类 型 的 数据 : Blob 对 象 、 定 长 块 以 及 大 文件 。 
在 系统 实现 层面 ， 分 布 式 文件 系统 内 部 按照 数据 块 ( chunk ) 来 组 织 数 据 ， 每 个 数据 
块 的 大 小 大 致 相同 ， 每 个 数据 块 可 以 包含 多 个 Blob 对 象 或 者 定 长 块 ， 一 个 大 文件 也 
可 以 拆 分 为 多 个 数据 块 ， 如 图 1-1 所 示 。 分 布 式 文件 系统 将 这 些 数据 块 分 散 到 存储 集 
群 ， 处 理 数据 复制 、 一 致 性 、 负 载 均衡 、 容 错 等 分 布 式 系统 难题 ， 并 将 用 户 对 Blob 
对 象 、 定 长 块 以 及 大 文件 的 操作 映射 为 对 底层 数据 块 的 操作 。 
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分 布 式 Blob 存储 分 布 式 块 设备 分 布 式 大 文件 存储 
1-1 数据 块 与 Blob 对 象 、 定 长 块 、 大 文件 乙 间 的 天 系 
2 .分 布 式 键 值 系 统 


分 布 式 键 值 系 统 用 于 存储 关系 简单 的 半 结 构 化 数据 ， 它 只 提供 基于 主键 的 
CRUD ( Create/Read/Update/Delete ) 功能 ， 即 根据 主键 创建 、 读 取 、 更 新 或 者 
删除 一 条 键 值 记录 。 


典型 的 系统 有 Amazon Dynamo 以 及 Taobao Tair。 从 数据 结构 的 角度 看 ， 分 布 式 键 
值 系统 与 传统 的 哈 希 表 比 较 类 似 ， 不 同 的 是 ， 分 布 式 键 值 系统 支持 将 数据 分 布 到 集 
群 中 的 多 个 存储 节点 。 分 布 式 键 值 系 统 是 分 布 式 表格 系统 的 一 种 简化 实现 ， 一 般 用 


作 缓 存 ， 比 如) 淘宝 Tair 以 及 Memcache。 一 任性 哈 希 是 分 布 式 键 值 系 统 中 常用 的 数据 
分 布 技 术 ， 因 其 锌 Amazon DynamoDB 系 统 使 用 而 变 得 相当 有 名。 


3 .分 布 式 表格 系统 


分 布 式 表格 系统 用 于 存储 关系 较为 复杂 的 半 结 构 化 数据 ， 与 分 布 式 键 值 系统 相 比 , 
分 布 式 表格 系统 不 仅仅 支持 简单 的 CRUD 操 作 ， 而 且 支 持 扫 摘 某 个 主键 范围 。 分 布 式 
表格 系统 以 表格 为 单位 组 织 数 据 ， 每 个 表格 包括 很 多 行 ， 通 过 主键 标识 一 行 ， 支 持 
根据 主键 的 CRUD 功 能 以 及 范围 查找 功能 。 


分 布 式 表格 系统 借鉴 了 很 多 关系 数据 库 的 技术 ， 例 如 支持 某 种 程度 上 的 事务 ， 比 如 
单行 事务 ， 某 个 实体 组 (Entity Group， 一 个 用 户 下 的 所 有 数据 往往 构成 一 个 实体 
组 ) 下 的 多 行事 务 。 典 型 的 系统 包括 Google Bigtab1le 以 及 Megastore,Microsoft 
Azure Table Storage,Amazon DynamoDB 等 。 与 分 布 式 数据 库 相 比 ， 分 布 式 表 格 
系统 主要 支持 针对 单 张 表格 的 操作 ， 不 支持 一 些 特 别 复杂 的 操作 ， 比 如 多 表 关 联 ， 
ZR, RETARA; 另外 ， 在 分 布 式 表格 系统 中 ， 同 一 个 表格 的 多 个 数据 行 也 
不 要 求 包 含 相同 类 型 的 列 ， 适 合 半 结构 化 数据 。 分 布 式 表 格 系统 是 一 种 很 好 的 权 

衡 ， 这 类 系统 可 以 做 到 超大 规模 ,而且 支持 较 多 的 功能 ， 但 实现 往往 比较 复杂 ， 而 
且 有 一 定 的 使 用 门槛 。 


4. 分 布 式 数 据 库 


分 布 式 数 据 库 一 般 是 从 单机 关系 数据 库 扩展 而 来 ， 用 于 存储 结构 化 数据 。 分 布 式 数 
据 库 采用 二 维 表格 组 织 数 据 ， 提 供 SQL 关 系 查 询 语 言 ， 支持 多 表 关 联 ， 嵌 套子 查询 等 
复杂 操作 ， 并 提供 数据 库 事务 以 及 并 发 控制 。 


典型 的 系统 包括 MySQL 数 据 库 分 片 ( MySQL Sharding ) 集群 ，Amazon RDS 以 及 


Microsoft SQL Azure。 分 布 式 数据 库 支 持 的 功能 最 为 丰富 ， 符 合用 户 使 用 习惯 ， 
但 可 扩展 性 往往 受到 限制 。 当 然 ， 这 一 点 并 不 是 绝对 的 。Google Spanner 系 统 是 一 
个 支持 多 数据 中 心 的 分 布 式 数据 库 ， 它 不 仅 支 持 丰 富 的 关系 数据 库 功 能 ， 还 能 扩展 
到 多 个 数据 中 心 的 成 干 上 万 台 机 器 。 除 此 之 外 ， 阿 里 巴巴 OceanBase 系 统 也 是 一 个 
支持 自动 扩展 的 分 布 式 关 系数 据 库 。 


关系 数据 库 是 目前 为 止 最 为 成 熟 的 存储 技术 ， 它 的 功能 极其 丰富 ， 产生 了 商业 的 天 
系数 据 库 软件 ( 例如 Oracle,Microsoft SQL Server,IBM DB2 , MySQL ) 以 及 上 
层 的 工具 及 应 用 软件 生态 链 。 然 而 ， 关 系数 据 库 在 可 扩展 性 上 面临 着 巨大 的 挑战 。 
传统 关系 数据 库 的 事务 以 及 二 维 关 系 模型 很 难 高 效 地 扩展 到 多 个 存储 节点 上 ， 另 

外 ， 关 系数 据 库 对 于 要 求 高 并 发 的 应 用 在 性 能 上 优化 空间 较 大 。 为 了 解决 关系 数据 
库 面临 的 可 扩展 性 、 高 并 发 以 及 性 能 方面 的 问题 ， 各 种 各 样 的 非 天 系数 据 库 风 起 云 
涌 ， 这 类 系统 成 为 NoSQL 系 统 ， 可 以 理解 为 “Not Only SQL” 系 统 。NoSQL 系 统 多 
得 让 人 眼花 综 乱 ， 每 个 系统 都 有 自己 的 独到 之 处 ， 适 合 解 决 某 种 特定 的 问题 。 这 些 
系统 变化 很 快 ， 本 书 不 会 尝试 去 探寻 某 种 NosQL 系 统 的 实现 ， 而 是 从 分 布 式 存储 技术 
的 角度 探寻 大 规模 存储 系统 背后 的 原理 。 


第 2 章 单机 仔 储 系统 


单机 存储 引擎 就 是 哈 希 表 、B 树 等 数据 结构 在 机 械 磁 盘 、SSD 等 持久 化 介质 上 的 实 
现 。 单 机 存储 系统 是 单机 存储 引 掌 的 一 种 封 濠 ， 对 外 提供 文件 、 键 值 、 表 格 或 者 关 
系 模型 。 单 机 存储 系统 的 理论 来 源 于 关系 数据 库 。 数 据 库 将 一 个 或 多 个 操作 组 成 一 
组 ， 称 作 事务 ， 事 务必 须 满足 原子 性 ( Atomicity ) 、 一 致 性 ( Consistency ) 、 
隔离 性 ( Isolation) 以 及 持久 性 (Durability ) ， 简 称 为 ACID 特性 。 多 个 事务 并 
发 执行 时 ， 数 据 库 的 并 发 控制 管理 器 必须 能 够 保证 多 个 事务 的 执行 结果 不 能 破坏 某 


种 约定 ， 如 不 能 出 现 事务 执行 到 一 半 的 情况 ， 不 能 读 取 到 未 提交 的 事务 ， 等 等 。， 
了 保证 持久 性 ， 对 于 数据 库 的 每 一 个 变化 都 要 在 磁盘 上 记录 日 志 ， 当 数据 库 系 统 突 
然 友 生 故 障 ， 重 局 后 能 够 恢复 到 之 前 一 致 的 状态 。 


本 章 首先 介绍 CPU、I0、 网 络 等 硬件 基础 知识 及 性 能 参数 ， 接 着 介绍 主流 的 单机 存储 
引擎 。 其 中 ， 哈 希 人 存储 引擎 是 哈 希 表 的 持久 化 实现 ，B 树 人 存储 引擎 是 B 树 的 持久 化 实 
现 ， 而 LsM 树 ( Log Structure Merge Tree ) 仓储 5 引擎 采 用 批量 转 储 技术 来 避免 
磁盘 随机 写 入 。 最 后 ， 介 绍 关系 数据 库 理 论 基础 ， 包 括 事务 、 并 发 控制 、 故 障 恢 
&. Sm. 


2.1 硬件 基础 


硬件 发 展 很 快 ， 摩 尔 定律 告诉 我 们 : 每 18 个 月 计算 机 等 IT 产品 的 性 能 会 翻 一 番 ; 或 
者 训 相 同性 能 的 计算 机 等 IT 产品 ， 每 18 个 月 价钱 会 降 一 半 。 但 是 ， 计 算 机 的 硬件 体 
系 架构 保持 相对 稳定 。 架 构 设 计 很 重要 的 一 点 就 是 合理 选择 并 且 能 够 最 大 限度 地 友 
挥 底层 硬件 的 价值 。 


2.1.1 CPU 架构 


早期 的 CPU 为 单 核 必 片 ， 工 程 师 们 很 快意 识 到 ,仅仅 提高 单 核 的 速度 会 产生 过 多 的 热 
量 目 无 法 市 来 相应 的 性 能 改善 。 因 此 ， 现 代 服 务 器 基本 为 多 核 或 多 个 CPU。 经 典 的 多 
CPU 架构 为 对 称 多 处 理 结构 ( Symmetric Multi-Processing,SMP) ， 即 在 一 个 计 
算 机 上 汇集 了 一 组 处 理 器 ， 它 们 之 间 对 称 工作 ， 无 主 次 或 从 属 关 系 ， 共 享 相同 的 物 
理 内 存 及 总 线 ， 如 图 2-1 所 示 。 
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2-1 SMP 系 统 结 构 


图 2-1 中 的 SMP 系 统 由 两 个 CPU 组 成 ， 每 个 CPU 有 两 个 核心 ( core) ，CPU 与 内 存 之 间 
通过 总 线 通 信 。 每 个 核心 有 各 自 的 L1d Cache ( L1 数 据 缓存 ) 及 L1i Cache ( L1 指 
令 缓存 ) ， 同 一 个 CPU 的 多 个 核心 共享 L2 以 及 L3 缓 存 ， 另 外 ， 某 些 CPU 还 可 以 通过 超 
线程 技术 ( Hyper-Threading Technology ) 使 得 一 个 核心 具有 同时 执行 两 个 线程 
的 能 力 。 


SMP 架 构 的 主要 特征 是 共享 ， 系 统 中 所 有 资源 ( CPU、 内 存 、I/0 等 ) 都 是 共享 的 ， 
由 于 多 CPU 对 前 端 总 线 的 竞争 ，SMP 的 扩展 能 力 非 常 有限。 为 了 提高 可 扩展 性 ， 现 在 
的 主流 服务 器 架构 一 般 为 NUMA ( Non -Uniform Memory Access， 非 一 致 存储 访 
问 ) 架构 。 它 具有 多 个 NUMA 节 点 ， 每 个 NUMA 节 点 是 一 个 SMP 结 构 ， 一 般 由 多 个 


CPU ( 如 4 个 ) 组 成 ， 并 且 具 有 独立 的 本 地 内 存 、IO 横 口 等 。 


图 2-2 为 包含 4 个 NUMA 节 点 的 服务 器 架构 图 ,NUMA 节 点 可 以 直接 快速 访问 本 地 内 存 , 
也 可 以 通过 NUMA 互 联 互 通 模 块 访问 其 他 NUMA 节 点 的 内 存 ， 访 问 本 地 内 存 的 速度 远 远 
高 于 远程 访问 的 速度 。 由 于 这 个 特点 ,为 了 更 好 地 友 挥 系统 性 能 ， 开 友 应 用 程序 时 
需要 尽量 减少 不 同 NUMA 节 点 之 间 的 信息 交互 。 


内 存 控 制 带 


NUMA 
H HX 
模块 


内 存 控制 需 





图 2-2 NUMA 架 构 示例 
2.1.2 I0 总 线 


仓储 系 统 的 性 能 手 贷 一 般 在 于 I0， 因 此 ， 有 必要 对 10 子 系统 的 架构 有 一 个 大 致 的 了 
解 。 以 Intel x48 主 板 为 例 ， 它 是 典型 的 南 、 北 桥架 构 ， 如 图 2-3 所 示 。 北 桥 心 片 通 
过 前 端 总 线 ( Front Side Bus,FSB ) 与 CPU 相 连 ， 内存 模块 以 及 PCI-E 设 备 ( 如 高 
端的 ssD 设 备 Fusion-I0 ) 挂 接 在 北桥 上 。 北 桥 与 南 桥 之 间 通 过 DMI 连接 ，DMI 的 带 


587J1GB/s , WAF ( 包括 干 兆 以 及 万 兆 网 卡 ) , HESSEN FR Roi [eb ( 如 Intel 
326 系 列 SSD ) 挂 接 在 南 桥 上 。 如 果 采 用 SATAZ 接 口 ， 那 么 最 大 带宽 为 3866MB/s。 


Intel X48 RAM 模块 ( 约 83ns, 


北桥 芯片 250 时 钟 周 期 ) 





种 党， IGB/s 


(dia (15000 转 ， 带 宽 
100MB/s LA E, Bf EL 
Intel 访问 延 时 10ms ) 
ICHR9 南 





桥 心 H Ta] HE nr n ^nf 
SSD ( ^ w, 100 一 200 
MB/s， 随 机 访问 延 时 : 
0.1 ~ 0.2ms ) 









nternet ( 延迟 : 30 ~ 100ms 
数据 中 心 内 (延迟 :0.5ms ) 






2-3 Intel X48 主板 南北 桥架 构 
2.1.3 网 络 拓扑 


图 2-4 为 传统 的 数据 中 心 网 络 拓扑 ， 思 科 过 去 一 直 提倡 这 样 的 拓扑 ， 分 为 三 层 ， 最 下 
面 是 接 入 层 (Edge) ， 中 间 是 汇聚 层 (Aggregation) ， 上 面 是 核心 层 ( Core ) 。 
典型 的 接 入 层 交 换 机 包含 48 个 1Gb 端 口 以 及 4 个 16Gb 上 行 端口 ， 汇 聚 层 以 及 核心 层 的 
交换 机 包含 128 个 16Gb 的 端口 。 传 统 三 层 结构 的 问题 在 于 可 能 有 很 多 接 入 层 的 交换 


机 接 到 汇聚 层 ， 很 多 的 汇聚 层 交 损 机 接 到 核心 层 。 同 一 个 接 入 层 下 的 服务 器 之 间 市 
宽 为 16b， 不 同 接 入 层 交 换 机 下 的 服务 器 之 间 的 市 帝 小 于 1Gb。 由 于 同一 个 接 入 层 的 
服务 器 往往 部 署 在 一 个 机 架 内 ， 因 此 ， 设 计 系 统 的 时 候 需 要 考虑 服务 器 是 否 在 一 个 
机 架 内 ， 减 少 跨 机 架 拷贝 大 量 数 据 。 例 如 ，Hadoop HDFS 默 认 存 储 三 个 副本 ， 其 中 
两 个 副本 放 在 同一 个 机 架 ， 残 是 这 个 原因 。 
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2-4 数据 中 心 网 络 拓扑 〈 三 层 结构 ) 


为 了 减少 系统 对 网 络 拓扑 结构 的 依赖 ，Google 在 2668 年 的 时 候 将 网 络 改造 为 扁平 化 
拓扑 结构 ， 即 三 级 CLOS 网 络 ， 同 一 个 集群 内 最 多 支持 26486 台 服务 器 ， 且 任何 两 全 
都 有 1Gb 带 宽 。CLOS 网 络 需要 额外 投入 更 多 的 交换 机 ， 带 来 的 好 处 也 是 明显 的 ， 设 
计 系统 时 不 需要 考虑 底层 网 络 拓扑 ， 从 而 很 方便 地 将 整个 集群 做 成 一 个 计算 资源 
池 。 


同一 个 数据 中 心 内 部 的 传输 延 时 是 比较 小 的 ， 网 络 一 次 来 回 的 时 间 在 1 毫秒 之 内 。 数 
据 中 心 之 间 的 传输 延迟 是 很 大 的 ， 取 决 于 光 在 光纤 中 的 传输 时 间 。 例 如 ， 北 京 与 杭 
州 忆 间 的 直线 距离 大 约 为 1366 公 里 ， 光 在 信息 传输 中 走 折线 ， 假 设 折线 距离 为 直线 
距离 的 1.5 倍 ， 那 么 区 传输 一 次 网 络 来 回 延 时 的 理论 值 为 13886x1.5x2/368666=13 


ze, , Sc ELA Z7J4ese t. 


2.1.4 性 能 参数 


单 见 硬件 的 大 致 性 能 参数 如 表 2-1 所 示 。 


表 2-1 常用 硬件 性 能 参数 


类 别 消耗 的 时 间 
访问 L1 Cache 0.5 ns 
^r 3c TOL RU R Ur 5ns 
访问 L2 Cache 7ns 
Mutex 加 锁 /解锁 100 ns 
内 存 访问 100 ns 
F 兆 网 络 发 送 1MB 数据 10 ms 
从 内 存 顺 序 读 取 1MB 数据 0.25 ms 
机 房 内 网 络 来 回 0.5 ms 
异地 机 房 之 间 网 络 来 回 30-100 ms 
SATA 磁盘 寻 道 10 ms 
从 SATA 磁盘 顺序 读 取 1MB 数据 20 ms 
固态 盘 SSD 访问 延迟 0.1~0.2 ms 


磁盘 读 写 带 宽 还 是 不 错 的 ，15666 转 的 SATA 盘 的 顺序 读 取 带 宽 可 以 达到 16eMB 以 上 , 
由 于 磁盘 寻 道 的 时 间 大 约 为 1@ms， 顺 序 读 取 1MB 数 据 的 时 间 为 : 磁盘 寻 道 时 间 + 数 据 


读 取 时 间 ， 即 16ems+1MB/168MB/sx1680=26ms。 和 存储 系统 的 性 能 瓶颈 主要 在 于 磁盘 
随机 读 写 。 设 计 存 储 引 警 的 时 候 会 针对 磁盘 的 特性 做 很 多 的 处 理 ， 比 如 将 随机 写 操 
作 转 化 为 顺序 写 ， 通 过 缓存 减少 磁盘 随机 读 操 作 。 


固态 磁盘 (SSD ) 在 最 近 几 年 得 到 越 来 越 多 的 关注 ， 各 大 互联 网 公司 都 有 大 量 基于 
SSD 的 应 用 。SSD 的 特点 是 随机 读 取 延迟 小 ， 能 够 提供 很 高 的 IOPS ( 每 秒 读 写 ， 
Input/Output Per Second) 性 能 。 它 的 主要 问题 在 于 容量 和 价格 ， 设 计 和 存储 系统 
的 时 候 一 般 可 以 用 来 做 缓存 或 者 性 能 要 求 较 高 的 关键 业务 。 


不 同 的 持久 化 存储 介质 对 比如 表 2-2 所 示 。 


X 2-2 存储 介质 对 比 





从 表 2-2 可 以 看 出 ，SSp 单 位 成 本 提供 的 IOPS 比 传统 的 SAs 或 者 SATA 磁 盘 都 要 大 得 
多 ,而 且 SSD 功 耗 低 ， 更 加 环保 ， 适合 小 数据 量 并 且 对 性 能 要 求 更 高 的 场景 。 


2.1.5 存储 层次 架构 


从 分 布 式 系统 的 角度 看 ， 整 个 集群 中 所 有 服务 器 上 的 存储 介质 ( 内 存 、 机 械 硬 盘 ， 
SSD ) 构成 一 个 整体 ， 其 他 服务 器 上 的 存储 介质 与 本 机 存储 介质 一 样 都 是 可 访问 的 ， 
区 别 仅 仅 在 于 需要 额外 的 网 络 传输 及 网 络 协议 栈 等 访问 开销 。 


如 图 2-5 所 示 ， 假 设 集群 中 有 36 个 机 架 ， 每 个 机 架 接 入 46 台 服务 器 ， 同 一 个 机 架 的 
服务 器 接 入 到 同一 个 接 入 交换 机 ， 不 同 机 架 的 服务 器 接 入 到 不 同 的 接 入 交换 机 。 
台 服 务 器 的 内 存 为 246B， 磁 盘 为 .06x1TB 的 SATA 机 械 硬盘 ( 150005& ) 或 者 
10x168GB 的 SSD 固 态 硬 盘 。 那 么 ， 对 于 每 台 服 务 器 ， 本 地 内 存 大 小 为 246B， 访 问 延 
时 为 16ens， 本 地 SATA 磁 盘 的 大 小 为 4TB ( 假设 利用 率 为 46% ) ， 随 机 访问 的 寻 道 时 
间 为 1ems， 本 地 ssD 磁 盘 的 大 小 为 1TB ( 假设 利用 率 为 66% ) ， 访 问 延 时 为 

86.1ms ,SATA 磁 盘 和 SSD 的 访问 带宽 受 限 于 SATA 接 口 ， 最 大 不 超过 3606eMB/s。 同 一 个 
机 架 下 的 服务 器 的 内 存 总 量 大 致 为 ITB， 访 问 延 时 和 带宽 受 限 于 网 络 ， 访 问 延 时 大 约 
为 3896hs， 带 宽 为 166MB/s， 和 磁盘 总 容量 为 166TB， 访 问 延 时 为 网 络 延 时 加 上 磁盘 寻 
道 时 间 ， 大 约 为 11ms, SSD 容 量 为 49TB， 访 问 延 时 为 网 络 延 时 加 上 sspD 访 问 延 时 ， 大 
约 为 2ms。 整 个 集群 下 所 有 服务 器 的 内 存 总 量 为 39TB， 访 问 延 时 和 带宽 受 限 于 网 

络 ， 跨 机 架 访 问 需要 经 过 聚合 层 或 者 核心 层 的 交换 机 ， 访 问 延 时 大 约 为 5966hs， 带 


SS £37J10MB/s , RÉSATISSDRSUSIRISERS 27 87311msL/.2ms , T5987310MB/s, 





单机 

DRAM: 24GB, 100ns, 20GB/s 
Disk: 4TB, 10ms, 300MB/S 
SSD: 1TB, 0.1ms, 300MB/s 


CPU Cache 


同一 个 机 架 (40 &) 

DRAM: ITB, 300hs, 100MB/s 
Disk: 160TB, llms, 100MB/S 
SSD: 40TB. 2ms, I00MB'/s 


同一 个 集群 C30 BLA) 
DRAM: 30TB, 500us, 10MB/s 
Disk: 4.8PB, I2ms, 10MB/S 
SSD: I.2PB, 3ms, 10MB,/s 


2-5 存储 层次 结构 图 


存储 系统 的 性 能 主要 包括 两 个 维度 : 吞吐 量 以 及 访问 延 时 ， 设 计 系 统 时 要 求 能 够 在 
保证 访问 延 时 的 基础 上 ， 通过 最 低 的 成 本 实现 尽 可 能 高 的 吞吐 量 。 磁 盘 和 SSD 的 访问 
延 时 差别 很 大 ， 但 市 铭 差 别 不 大 ， 因 此 ， 磁 盘 适 合 大 块 顺 序 访问 的 仓储 系统 ，SSD 适 
合 随机 访问 较 多 或 者 对 延 时 比较 敏感 的 天 键 系统 。 二 者 也 单单 组 合 在 一 起 进行 混合 
存储 ， 热 数据 ( 访问 频繁 ) 存储 到 SsD 中 ， 冷 数据 ( 访问 不 频繁 ) 存储 到 磁盘 中 。 


2.2 单机 存储 引 掌 


存储 引擎 是 存储 系统 的 发 动机 ， 直 接 决定 了 存储 系统 能 够 提供 的 性 能 和 功能 。 存 储 
系统 的 基本 功能 包括 : 增 、 删 、 读 、 改 ， 其 中 ， 读 取 操 作 又 分 为 随机 读 取 和 有 顺序 扫 
搞 。 哈 希 存 储 引 擎 是 哈 希 表 的 持久 化 实现 ， 文 持 增 、 删 、 改 ， 以 及 随机 读 取 操 作 , 


但 不 支持 顺序 扫描 ， 对 应 的 存储 系统 为 键 值 ( Key-Value) 存储 系统 ; B 树 ( B- 
Tree ) 存储 引擎 是 6 树 的 持久 化 实现 ， 不 仪 支持 单条 记录 的 增 、 删 、 读 、 改 操作 ， 还 
支持 顺序 扫描 ， 对 应 的 存储 系统 是 关系 数据 库 。 当 然 ， 键 值 系统 也 可 以 通过 B 树 存储 
引擎 实现 ; LSM 树 ( Log-Structured Merge Tree ) 仓储 引擎 和 B 树 存储 引擎 一 

样 ， 广 持 增 、 删 、 改 、 随 机 读 取 以 及 顺序 扫 摘 。 它 通过 批量 转 储 近 术 规避 磁盘 随机 
写 入 问题 ， 广泛 应 用 于 互联 网 的 后 从 存储 系统 ， 例 如 Google Bigtable, Google 
Leve1lDB 以 及 Facebook 开 源 的 Cassandra 系 统 。 本 节 分 别 以 Bitcask、MySQL 
InnoDB 以 及 Google LevelDB 系 统 为 例 介 绍 这 三 种 仓储 引擎 。 


2.2.1 哈 硕 人 存储 引擎 


Bitcask 是 一 个 基于 哈 希 表 结 构 的 键 值 仓储 系统 ， 它 仅 文 持 退 加 操作 ( Append- 
only) ， 即 所 有 的 写 操 作 只 追加 而 不 修改 老 的 数据 。 在 Bitcask 系 统 中 ， 每 个 文件 
有 一 定 的 大 小 限制 ， 当 文件 增加 到 相应 的 大 小 时 ， 束 会 产生 一 个 新 的 文件 ， 老 的 文 
件 只 读 不 写 。 在 任意 时 刻 ， 只 有 一 个 文件 是 可 写 的 ， 用 于 数据 追加 ， 称 为 活跃 数据 
文件 (active data file). 。 而 其 他 已 经 达到 大 小 限制 的 文件 ， 称 为 老 数据 文件 
(older data file), 


1 .数据 结构 


如 图 2-6 所 示 ，Bitcask 数 据 文件 中 的 数据 是 一 条 一 条 的 写 入 操作 ， 每 一 条 记录 的 数 
据 项 分 别 为 主键 (key), 、value 内 容 ( value ) 、 主 键 长 度 (key sz). 、value 长 
度 ( value_sz ), RJE ( timestamp ) 以 及 crc 校 验 值 。 ( 数据 删除 操作 也 不 会 
删除 旧 的 条 目 ， 而 是 将 value 设 定 为 一 个 特殊 的 值 用 作 标 识 ) 。 内 存 中 采用 基于 哈 希 
表 的 索引 数据 结构 ， 哈 希 表 的 作用 是 通过 主键 快速 地 定位 到 value 的 位 置 。 哈 希 表 结 
构 中 的 每 一 项 包含 了 三 个 用 于 定位 数据 的 信息 ， 分 别 是 文件 编号 (file id), 


value 在 文件 中 的 位 置 value pos) ) ，value 长 度 (value sz ) ， 通 过 读 取 
file_id 对 应 文件 的 value_pos 开 始 的 value_sz 个 字 节 ， 这 残 得 到 了 最 终 的 value 
值 。 写 入 时 首先 将 Key-Value 记 录 仍 加 到 活跃 数据 文件 的 末尾 ， 接 着 更 新 内 人 存 哈 

表 ， 因 此， 每 个 写 操作 总 共 需 要 进行 一 次 顺序 的 磁盘 写 入 和 一 次 内 存 操作 。 
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图 2-6 Bitcask 数 据 结 构 


Bitcask 在 内 存 中 存储 了 主键 和 value 的 索引 人 信息， 磁盘 文件 中 存储 了 主键 和 value 
的 实际 内 容 。 系 统 基于 一 个 假设 ，value 的 长 度 远 大 于 主键 的 长 度 。 假 如 value 的 平 
均 长 度 为 1KB， 每 条 记录 在 内 存 中 的 索引 信息 为 32 字 节 ， 那么 ， 磁 盘 内 存 比 为 
32:1。 这 样 ，32GB 内 存 索 引 | 的 数据 量 为 326GBx32=1TB。 


2 .定期 合并 


Bitcask 系 统 中 的 记录 删除 或 者 更 新 后 ， 原 来 的 记录 成 为 垃圾 数据 。 如 果 这 些 数据 
一 直 保 存 下 去 ， 文 件 会 无 限 膨胀 下 去 ， 为 了 解决 这 个 问题 ，Bitcask 需 要 定期 执行 
合并 ( Compaction ) 操作 以 实现 垃圾 回收 。 所 谓 合并 操作 ， 即 将 所 有 老 数据 文件 中 
的 数据 扫 摘 一 志 并 生成 新 的 数据 文件 ， 这 里 的 合并 其 实 残 是 对 同一 个 key 的 多 个 操作 
以 只 保留 最 新 一 个 的 原则 进行 删除 ， 每 次 合并 后 ， 新 生成 的 数据 文件 残 不 再 甩 余 
数据 了 。 


3 .快速 恢复 


Bitcask 系 统 中 的 哈 希 索引 存储 在 内 存 中 ， 如 果 不 做 额外 的 工作 ， 服 务 器 断 电 重 局 
重建 哈 希 表 需 要 扫 搓 一 遍 数 据 文件 ， 如果 数 据 文件 很 大 ， 这 是 一 个 非常 耗 时 的 过 
程 。Bitcask 通 过 索引 文件 (hint file ) 来 提高 重建 哈 希 表 的 速度 。 


简单 来 襄 ， 系 引文 件 残 是 将 内 存 中 的 哈 硕 索引 表 转 储 到 磁盘 生成 的 结果 文件 。 
Bitcask 对 老 数据 文件 进行 合并 操作 时 ， 会 产生 新 的 数据 文件 ， 这 个 过 程 中 还 会 产 
生 一 个 么 引文 件 ， 这 个 索引 文件 记录 每 一 条 记录 的 哈 硕 索引 信息 。 与 数据 文件 不 同 
的 是 ， 索引 文件 并 不 存储 具体 的 value 值 ， 只 存储 value 的 位 置 ( 与 内 存 哈 希 表 一 
样 ) 。 这 样 ， 在 重建 哈 希 表 时 ， 丈 不 需要 扫描 所 有 数据 文件 ， 而 仅仅 需要 将 索引 文 
件 中 的 数据 一 行 行 读 取 并 重建 即 可 ， 大 大 减少 了 重 局 后 的 恢复 时 间 ]。 


2.2.2 B 树 存储 引擎 


相 比 哈 希 存储 引擎 ，B 树 存储 引擎 不 仪 支持 随机 读 取 ， 还 支持 范围 扫描 。 关 系数 据 库 
中 通过 率 引 访问 数据 ， Mysql InnoDB 中 ， 有 一 个 称 为 聚集 索引 的 特殊 索引 , 行 的 
数据 存 于 其 中 ， 组 织 成 B+ 树 ( B 树 的 一 种 ) 数据 结构 。 


1.250 8254) 


如 图 2-7 所 示 ，MySQL InnoDB 按 照 页 面 ( Page ) 来 组 织 数据 ， 每 个 页 面 对 应 B+ 树 的 
一 个 节点 。 其 中 ， 叶 子 节 点 保存 每 行 的 完整 数据 ， 非 叶子 节点 保存 这 引 信息 。 数 据 
在 每 个 节点 中 有 序 存储 ， 数 据 库 查 询 时 需要 从 根 节 点 开始 二 分 查找 直到 叶子 节点 ， 
每 次 读 取 一 个 节点 ， 如 果 对 应 的 页 面 不 在 内 存 中 ， 需 要 从 磁盘 中 读 取 并 缓存 起 来 。 
B+ 树 的 根 节点 是 常 驻 内 存 的 ， 因 此 ，B+ 树 一 次 检索 最 多 需要 h-1 次 磁盘 10， 复 杂 度 
JJO ( h ) =0 ( logdN ) ( N 为 元 素 个 数 ，d 力 每 个 忆 点 的 出 度 ，h 为 B+ 树 高 度 ) 。 修 改 
操作 首先 需要 记录 提交 日 志 ， 接着 修改 内 存 中 的 B+ 树 。 如 果 内 存 中 的 被 修改 过 的 页 
面 超过 一 定 的 比率 ， 后 台 线 程 会 将 这 些 页 面 刷 到 磁盘 中 持久 化 。 当 然 ，InnoDB 实 现 
时 做 了 大 量 的 优化 ， 这 部 分 内 容 已 经 超出 了 本 书 的 范围 。 
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2 .缓冲 区 管理 


缓冲 区 管理 器 负责 将 可 用 的 内 存 划 分 成 缓冲 区 ， 缓 冲 区 是 与 页 面 同等 大 小 的 区 域 ， 


磁盘 块 的 内 容 可 以 传送 到 组 ;中 区 中 。 缓 ;站 区 管理 器 的 关键 在 于 替换 策略 ， 即 选择 将 
哪些 页 面 淘汰 出 缓冲 池 。 弟 见 的 算法 有 以 下 两 种 。 


( 1) LRU 


LRU 算 法 淘汰 最 长 时 间 没 有 读 或 者 写 过 的 块 。 这 种 方法 要 求 缓冲 区 管理 器 按照 页 面 最 
后 一 次 被 访问 的 时 间 组 成 一 个 链表 ， 每 次 淘汰 链表 尾部 的 页 面 。 直 党 上 ， 长 时 间 没 
有 读 写 的 页 面 比 那些 最 近 访 问 过 的 页 面 有 更 小 的 最 近 访 问 的 可 能 性 。 


( 2) LIRS 


LRU 算 法 在 大 多 数 情况 下 表现 是 不 错 的 ， 但 有 一 个 问题 : 假如 某 一 个 查询 做 了 一 次 全 


换 ， 从 而 污染 缓冲 池 。 现 代数 据 库 一 般 采 用 LIRS 算 法 ， 将 缓冲 池 分 为 两 级 ， 数 据 首 
先进 入 第 一 级 ， 如 果 数 据 在 较 短 的 时 间 内 被 访问 两 次 或 者 以 上 ， 则 成 为 热点 数据 进 
入 第 二 级 ， 每 一 级 内 部 还 是 采用 LRU 蔡 换算 法 。0racle 数 据 库 中 的 Touch Count 算 
法 和 MySQL InnoDB 中 的 车 换算 法 都 采用 了 类 似 的 分 级 思想 。 以 MySQL InnoDB 为 
例 ，InnoDB 内 部 的 LRU 链 表 分 为 两 部 分 : 新 子 链表 (new sublist) 和 老子 链表 
(old sublist ) ， 默 认 情况 下 ， 前 者 占 5/8， 后 者 占 3/8。 页 面 首先 插入 到 老子 链 
表 ，InnoDB 要 求 页 面 在 老子 链表 停留 时 间 超过 一 定 值 ， 比 如 1 秒 ， 才 有 可 能 被 转移 
到 新 子 链表 。 当 出 现 全 表 扫 描 时 ，InnoDB 将 数据 页 面 载 入 到 老子 链表 ， 由 于 数据 页 
面 企 老子 链表 中 的 停留 时 间 不 够 ， 不 会 被 转移 到 新 子 链表 中 ， 这 残 避免 了 新 子 链表 
中 的 页 面 被 替换 出 去 的 情况 。 


2.2.3 LSM 树 存储 引 掌 


LSM 树 ( Log Structured Merge Tree ) 的 思想 非 铅 朴素， 残 是 将 对 数据 的 修改 增 


量 保持 在 内 存 中 ， 达 到 指定 的 大 小 限制 后 将 这 些 修改 操作 批量 写 入 磁盘 ， 读 取 时 需 
要 合并 磁盘 中 的 历史 数据 和 内 存 中 最 近 的 修改 操作 。LSM 树 的 优势 在 于 有 效 地 规避 了 
磁盘 随机 写 入 问题 ， 但 读 取 时 可 能 需要 访问 较 多 的 磁盘 文件 。 本 节 介 绍 LevelDB 中 
的 LSM 树 存储 引擎 。 


1. 人 存储 结构 


如 图 2-8 所 示 ，Leve1DB 人 存储 引擎 主要 包括 : 内 存 中 的 MemTable 和 不 可 变 

MemTable ( Immutable MemTable， 也 称 为 Frozen MemTable， 即 冻结 

MemTable ) 以 及 磁盘 上 的 几 种 主要 文件 : 当前 ( Current ) 文件 、 清 

(Manifest) SAF, HFH (Commit Log， 也 称 为 提交 日 志 ) 文件 以 及 SSTable 
文件 。 当 应 用 写 入 一 条 记录 时 ，Leve1DB 会 首先 将 修改 操作 写 入 到 操作 日 志文 件 ， 
成 功 后 再 将 修改 操作 应 用 到 MemTable， 这 样 就 完成 了 写 入 操作 。 







Jl 写 入 操作 
MemTable 


不 可 变 MemTable 





[] 
LI 
1 


SSTable 
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当 MemTable 占 用 的 内 存 达 到 一 个 上 限 值 后 ， 需要 将 内 存 的 数据 转 储 到 外 存 文件 中 。 
Leve1lDB 会 将 原先 的 MemTable); 东 结 成 为 不 可 变 MemTable， 并 生成 一 个 新 的 
MemTable。 新 到 来 的 数据 被 记 入 新 的 操作 日 志文 件 和 新 生成 的 MemTable 中 。 顾 名 思 
义 ， 不 可 变 MemTable 的 内 容 是 不 可 更 改 的 ， 只 能 读 取 不 能 写 入 或 者 删除 。LevelDB 
后 台 线 程 会 将 不 可 变 MemTable 的 数据 排序 后 转 储 到 磁盘 ， 形 成 一 个 新 的 SSTable 文 
件 ， 这 个 操作 称 为 Compaction。SSTable 文 件 是 内 存 中 的 数据 不 断 进 行 
Compaction 操 作 后 形成 的 ， 且 SsTable 的 所 有 文件 是 一 种 层级 结构 ， 第 6 层 为 Level 
80， 第 1 层 为 Level 1, 以 此 类 推 。 


SSsTable 中 的 文件 是 按照 记录 的 主键 排序 的 ， 每 个 文件 有 最 小 的 主键 和 最 大 的 主 
键 。Leve1DB 的 清单 文件 记录 了 这 些 元 数据 ， 包 括 属于 哪个 层级 、 文 件 名 称 、 最 小 
主键 和 最 大 主键 。 当 前 文件 记录 了 当前 使 用 的 清单 文件 名 。 在 LevelDB 的 运行 过 程 
中 ， 随 着 Compaction 的 进行 ，SSTable 文 件 会 友 生 变化 ， 新 的 文件 会 产生 ， 老 的 文 
件 被 废弃 ， 此 时 往往 会 生成 新 的 清单 文件 来 记载 这 种 变化 ， 而 当前 文件 则 用 来 指出 
哪个 清单 文件 才 是 当前 有 效 的 。 


直观 上 ，Leve1lDB 每 次 查询 都 需要 从 老 到 新 读 取 每 个 层级 的 SSTable 文 件 以 及 内 存 中 
的 MemTable。LevelDB 做 了 一 个 优化 ， 由 于 LevelDB 对 外 只 支持 随机 读 取 单条 记 

录 ， 查 询 时 LevelDB 首 先 会 去 查看 内 存 中 的 MemTable， 如 果 MemTable 包 含 记录 的 主 
键 及 其 对 应 的 值 ， 则 返回 记录 即 可 ; 如 果 MemTable 没 有 读 到 该 主键 ， 则 接 下 来 到 同 
样 处 于 内 存 中 的 不 可 变 Memtable 中 去 读 取 ; 类 似 地 ， 如果 还 是 没有 读 到 ， 只 能 依次 
从 新 到 老 读 取 磁 盘 中 的 SSTable 文 件 。 


2. 合 并 


Leve1DB 写 入 操作 很 简单 ， 但 是 读 取 操 作 比 较 复 杂 ， 需要 在 内 存 以 及 各 个 层级 文件 
中 按照 从 新 到 老 依次 查找 ， 代 价 很 高 。 为 了 加 快 读 取 速度 ，Leve1DB 内 部 会 执行 
Compaction 操 作 来 对 已 有 的 记录 进行 整理 压缩 ， 从 而 删除 一 些 不 再 有 效 的 记录 ， 减 
少数 据 规模 和 文件 数量 。 


LevelDB 的 Compaction 操 作 分 为 两 种 : minor compaction 和 major 

compaction, Minor compaction 是 指 当 内 存 中 的 MemTable 大 小 到 了 一 定 值 时 ，, 将 
内 存 数 据 转 储 到 ssTable 文 件 中 。 每 个 层级 下 有 多 个 SSTable， 当 某 个 层级 下 的 
SsTable 文 件数 目 超过 一 定 设置 值 后 ,leve1lDB 会 从 这 个 层级 中 选择 SsSTable 文 件 ， 


将 其 和 高 一 层级 的 SSTable 文 件 合 并 ， 这 就 是 major compaction。major 


compaction 相 当 于 执行 一 次 多 路 归并 : RREFERA BT BSSTablext 
中 的 记录 ， 如 果 没有 保存 价值 ， 则 直接 抛 茎 ; 否则 ， 将 其 写 入 到 新 生成 的 SSTable 
文件 中 。 


2.3 数据 模型 


如 果 说 存储 引擎 相当 于 存储 系统 的 友 动 机 ， 那 么 ， 数 据 模型 束 是 存储 系统 的 外 过。 
存储 系统 的 数据 模型 主要 包括 三 类 : 文件 、 关 系 以 及 随 着 NosQL 技 术 流 行 起 来 的 键 值 
模型 。 传 统 的 文件 系统 和 关系 数据 库 系 统 分 别 采 用 文件 和 关系 模型 。 关 系 模型 描述 
能 力 强 ， 产 业 链 完整 ， 是 存储 系统 的 业界 标准 。 然 而 ， 随 着 应 用 在 可 扩展 性 、 高 并 
发 以 及 性 能 上 提出 越 来 越 高 的 要 求 ， 大 而 全 的 关系 数据 库 有 时 显得 力不从心 ， 

此 ， 产 生 了 一 毕 新 的 数据 模型 ， 比 如 键 值 模型 ， 天 系 弱 化 的 表格 模型 ， 等 等 。 


2.3.1 文件 模型 


文件 系统 以 目录 树 的 形式 组 织 文 件 ， 以 类 UNIX 操 作 系统 为 例 ， 根 目录 为 /， 包 

含 /usr、/bin、/home 等 子 目 录 ，, 每 个 子 目 录 叉 包含 其 他 子 目 录 或 者 文件 。 文 件 系 
统 的 操作 涉及 目录 以 及 文件 ， 例如， 打开 /关闭 文件 、 读 写 文 件 、 遍 历 目录 、 设 置 文 
件 属性 等 。POSIX ( Portable Operating System Interface ) 是 应 用 程序 访问 

文件 系统 的 API 标 准 ， 它 定义 了 文件 系统 存储 接口 及 操作 集 。POSIX 主 要 接口 如 下 所 


示 。 
eOpen/close : 打开 /关闭 一 个 文件 ， 获 取 文 件 描述 符 ; 
eRead/write : 读 取 一 个 文件 或 者 往 文 件 中 写 入 数据 ; 


eOpendir/closedir : 打开 或 者 关闭 一 个 目录 ; 


eReaddir : 遍历 目录 。 


POSIX 标 准 不 仅 定 义 了 文件 操作 接口 ， 而 且 还 定义 了 读 写 操作 语义 。 例 如 ，POSIX 标 
准 要求 读 写 并 上 友 时 能 够 保证 操作 的 原子 性 ， 即 读 操作 要 么 读 到 所 有 结果 ， 要 么 什么 
也 读 不 到 ; 另外 ， 和 要 求 读 操作 能 够 读 到 之 前 所 有 写 操作 的 结果 。POSIX 标 准 适 合 单机 
文件 系统 ， 在 分 布 式 文件 系统 中 ， 出 于 性 能 考虑 ， 一 般 不 会 完全 遵守 这 个 标准 。 

NFS ( Network File System) 文件 系统 允许 客户 端 缓存 文件 数据 ， 多 个 客户 端 并 
发 修改 同一 个 文件 时 可 能 出 现 不 一 致 的 情况 。 举 个 例子 ，NFS 客 户 端 A 和 B 需 要 同时 修 
改 NFS 服 务 器 的 某 个 文件 ， 每 个 客户 端 都 在 本 地 缓存 了 文件 的 副本 ，A 修 改 后 先 提 

交 ，B 后 提交 ， 那 么 ， 即 使 A 和 8 修改 的 是 文件 的 不 同位 置 ， 也 会 出 现 B 的 修改 覆 羡 A 的 
情况 。 

对 象 模 型 与 文件 模型 比较 类 似 ， 用 于 仓储 图 片 、 视 频 、 文 档 等 二 进 制 数据 块 ， 典 型 
的 系统 包括 Amazon Simple Storage (S3) , Taobao File System (TFS). XX 
些 系统 弱化 了 目录 树 的 概念 ,Amazon S53 只 支持 一 级 目录 ， 不 支持 子 目 录 ，Taobao 
TFS 甚 至 不 支持 目录 结构 。 与 文件 模型 不 同 的 是 ， 对 象 模型 要 求 对 象 一 次 性 写 入 到 系 
统 ， 只 能 删除 整个 对 象 ， 不 允许 修改 其 中 某 个 部 分 。 


2.3.2 关系 模型 


每 个 关系 是 一 个 表格 ， 由 多 个 元 组 ( 行 ) 构成 ， 而 每 个 元 组 又 包含 多 个 属性 
( 列 ) 。 天 系 名 、 属 性 名 以 及 属性 类 型 称 作 该 天 系 的 模式 ( schema ) 。 例 如 ， 
Movie 关 系 的 模式 为 Movie ( title,year,length) , Erh, title, year, 


length 是 属性 ， 假 设 它 们 的 类 型 分 别 为 字符 串 、 整 数 、 整 数 。 


数据 库 语言 SQL 用 于 描述 查询 以 及 修改 操作 。 数 据 库 修 改 包含 三 条 命令 : INSERT, 


DELETEL 以 及 UPDATE ， 查询 通 常 通过 select-from-where 语 句 来 表达 ， 它 县 有 图 2-9 
所 示 的 一 般 形式 。Sselect 查 询 语句 计算 过 程 大 致 如 下 ( 不 考虑 查询 优化 ) : 


SELECT 
FROM 
WHERE 


GROUP BY 


HAVING 
ORDER BY 
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1) 取 FROM 子 句 中 列 出 的 各 个 关系 的 元 组 的 所 有 可 能 的 组 合 。 
2 ) 将 不 符合 WHERE 子 句 中 给 出 的 条 件 的 元 组 去 挥 。 


3) 如 果 有 GROUP BY 子 句 ， 则 将 剩 下 的 元 组 按 GROUP BY 子 句 中 给 出 的 属性 的 值 分 
组 。 


4 ) 如 果 有 HAVING 子 句 ， 则 按照 HAVING 子 句 中 给 出 的 条 件 检 查 每 一 个 组 ， 去 掉 不 符 
合 条 件 的 组 。 


5 ) 按照 SELECT 子 句 的 说 明 ， 对 于 指定 的 属性 和 属性 上 的 聚集 ( 例如 求 和 ) 计算 出 


结果 元 组 。 
6 ) 按照 ORDER BY 子 句 中 的 属性 列 的 值 对 结果 元 组 进行 排序 。 


SQL 查询 还 有 一 个 强大 的 特性 是 允许 在 NHERE、FROM 和 HAVING 子 句 中 使 用 子 查 询 , 


子 查询 又 是 一 个 完整 的 select-from-where 语 句 。 


另外 ，SQL 还 包括 两 个 重要 的 特性 : 索引 以 及 事务 。 其 中 ， 数 据 库 索引 用 于 减少 SQL 
执行 时 扫 摘 的 数据 量 ， 提 高 读 取 性 能 ; 数据 库 事务 则 规定 了 各 个 数据 库 操 作 的 语 
义 ， 保 证 了 多 个 操作 并 发 执行 时 的 ACID 特性 ( 原子 性 、 一 臻 性、 隔离 性 、 持 久 
性 ) ， 后 续 会 专门 介绍 。 


2.3.3 键 值 模型 


大 量 的 NoSsQL 系 统 采 用 了 键 值 模 型 ( 也 称 为 Key-Value 模 型 ) ， 每 行 记 录 由 主键 和 值 
两 个 部 分 组 成 ， 支 持 基于 主键 的 如 下 操作 : 


ePut : 保存 一 个 Key-Value 对 。 
eGet : 读 取 一 个 Key-Value 对 。 
eDelete : 删除 一 个 Key-Value 对 。 


Key-Value 模 型 过 于 简单 ， 广 持 的 应 用 场景 有 限 ，NoSQL 系 统 中 使 用 比较 广泛 的 模型 
是 表格 模型 。 表 格 模型 弱化 了 关系 模型 中 的 多 表 关 联 ， 驻 持 基 于 单 表 的 简单 操作 , 
典型 的 系统 是 Google Bigtable 以 及 其 开源 Java 实 现 HBase。 表 格 模 型 除了 支持 简 
单 的 基于 主键 的 操作 ， 还 支持 苑 围 扫 摘 ， 另 外 ， 也 又 持 基于 列 的 操作 。 主 要 操作 如 
D 


eInsert : 插入 一 行 数 据 ， 每 行 包括 若干 ?1 ; 
eDelete : 删除 一 行 数 据 ; 


eUpdate : 更 新 整 行 或 者 其 中 的 某 些 列 的 数据 ; 


eGet : 读 取 整 行 或 者 其 中 某 些 列 数据 ; 


eScan : 扫描 一 段 范 围 的 数据 ， 根 据 主键 确定 扫描 的 范围 ， 支 持 扫描 部 分 列 ， 支持 
按 列 过 滤 、 排 序 、 分 组 等 。 


与 关系 模型 不 同 的 是 ， 表 格 模型 一 般 不 支持 多 表 关 联 操 作 ，Bigtable 这 样 的 系统 也 
不 支持 二 级 索引 ,事务 操作 支持 也 比较 弱 ， 各 个 系统 支持 的 功能 差异 较 大 ， 没 有 统 
一 的 标准 。 另 外 ， 表 格 模型 往往 还 支持 无 模式 ( schema-less ) 特性 ， 也 就 是 说 , 
不 需要 预先 定义 每 行 包括 哪些 列 以 及 每 个 列 的 类 型 ， 多 行 之 间 人 允许 包含 不 同 列 。 


2.3.4 SQL 与 NoSQL 


随 着 互联 网 的 飞速 友 展 ， 数 据 规模 越 来 越 大 ， 并 发 量 越 来 越 高 ， 传 统 的 关系 数据库 
有 时 显得 力不从心 ， 非 关系 型 数据 库 ( NoSQL, Not Only SQL) 应 运 而 生 。NoSQL 系 
统 带 来 了 很 多 新 的 理念 ， 比 如 良好 的 可 扩展 性 ， 弱 化 数据 库 的 设计 范式 ， 弱 化 一 致 
性 要 求 ， 在 一 定 程度 上 解决 了 海量 数据 和 高 并 发 的 问题 ， 以 至 于 很 多 人 对 “NosQL 是 
否 会 取代 SQL” 存 在 疑虑 。 然 而 ，NoSQL 只 是 对 sQL 特 性 的 一 种 取舍 和 升华 ， 使 得 SQ&L 
更 加 适应 海量 数据 的 应 用 场景 ， 二 者 的 优势 将 不 断 融 合 ， 不 存在 谁 取代 谁 的 问题 。 


关系 数据 库 在 海量 数据 场景 面临 如 下 挑战 : 


e 事 务 关系 模型 要 求 多 个 SQL 操作 满足 ACID 特性 ， 所 有 的 SQL 操作 要 么 全 部 成 功 ， 要 
么 全 部 失败 。 在 分 布 式 系统 中 ， 如 果 多 个 操作 属于 不 同 的 服务 器 ， 保 证 它们 的 原子 
性 需要 用 到 两 阶段 提交 协议 ， 而 这 个 协议 的 性 能 很 低 ， 且 不 能 容忍 服务 器 故障 ， 很 
难 应 用 在 海量 数据 场景 。 


e 联 表 传统 的 数据 库 设 计时 需要 满足 范式 要 求 ， 例 如 ， 第 三 范式 要 求 在 一 个 关系 中 


不 能 出 现在 其 他 关系 中 已 包含 的 非 主键 信息 。 假 设 存 在 一 个 部 门 信息 表 ， 其 中 每 个 
部 门 有 部 门 编 号 、 部 门 名 称 、 部 门 简介 等 信息 ， 那 么 在 员工 信息 表 中 列 出 部 门 编号 
后 束 不 能 加 入 部 门 名 称 、 部 门 简介 等 部 门 有 关 的 信息 ， 否则 残 会 有 大 量 的 数据 元 
余 。 而 在 海量 数据 的 场景 ， 为 了 避免 数据 库 多 表 关联 操作 ， 往 往 会 使 用 数据 元 余 等 
违反 数据 库 范式 的 手段 。 实 践 表 明 ， 这 些 手段 带 来 的 收益 远 高 于 成 本 。 


e 性 能 关系 数据 库 采 用 B 树 存储 引擎 ， 更 新 操作 性 能 不 如 LSM 树 这 样 的 存储 引擎 。 另 
外 ， 如 果 只 有 基于 主键 的 增 、 删 、 查 、 改 操作 ， 关 系数 据 库 的 性 能 也 不 如 专门 定制 
的 Key-Value 人 存储 系统 。 


随 着 数据 规模 越 来 越 大 ， 可 扩展 性 以 及 性 能 提升 可 以 市 来 越 来 越 明 显 的 收益 ， 而 
NoSQL 系 统 要 么 可 扩展 性 好 ， 要 么 在 特定 的 应 用 场景 性 能 很 高 ， 广 泛 应 用 于 互联 网 业 
务 中 。 然 而 ，NoSQL 系 统 也 面临 如 下 问题 : 


e 缺 少 统一 标准 。 经 过 几 十 年 的 友 展 ， 天 系数 据 库 已 经 形成 了 SQL 语言 这 样 的 业界 标 
准 ， 并 拥有 完整 的 生态 链 。 然 而 ， 各 个 NoSQL 系 统 使 用 方法 不 同 ， 切 换 成 本 高 ， 很 难 
通用 。 


e 使 用 以 及 运 维 复杂 。NoSQL 系 统 无 论 是 选 型 ， 还 是 使 用 方式 ， 都 有 很 大 的 学 问 ， 往 
往 需要 理解 系统 的 实现 ， 另 外 ， 缺 乏 专 业 的 运 维 工具 和 运 维 人 员 。 而 天 系数 据 库 具 
有 完整 的 生态 链 和 丰富 的 运 维 工具 ， 也 有 大 量 经 验 丰富 的 运 维 人 员 。 


总 而 言 之 ， 关 系数 据 库 很 通用 ， 是 业界 标准 ， 但 是 在 一 些 特 定 的 应 用 场景 存在 可 扩 
展 性 和 性 能 的 问题 ，NoSQL 系 统 也 有 一 定 的 用 武之 地 。 从 技术 学 习 的 角度 看 ， 不 必 纠 
结 SQL 与 NosQL 的 区 别 ， 而 是 借鉴 二 者 各 自 不 同 的 优势 ， 着 重 理解 关系 数据 库 的 原理 
以 及 NosQL 系 统 的 高 可 扩展 性 。 


2.4 事务 与 并 发 控制 


事务 规范 了 数据 库 操作 的 语义 ， 每 个 事务 使 得 数据 库 从 一 个 一 致 的 状态 原子 地 转移 
到 另 一 个 一 致 的 状态 。 数 据 库 事务 具有 原子 性 ( Atomicity ) 、 一 致 性 

( Consistency ) 、 隔 离 性 ( Isolation) 以 及 持久 性 (Durability ) ， 即 ACID 属 
性 ， 这些 特 性 使 得 多 个 数据 库 事务 并 友 执 行 时 互 不 干扰 ， 也 不 会 获取 到 中 间 状 态 的 


错误 结果 。 


多 个 事务 并 发 执行 时 ， 如 果 它 们 的 执行 结果 和 按照 某 种 顺序 一 个 接着 一 个 串 行 执行 
的 效果 等 同 ， 这 种 隔离 级 别称 为 可 串 行 化 。 可 串 行 化 是 比较 理想 的 情况 ， 商 业 数据 
库 为 了 性 能 考虑 ， 往 往 会 定义 多 种 隔离 级 别 。 事 务 的 并 发 控制 一 般 通 过 锁 机 制 来 实 
现 ， 锁 可 以 有 不 同 的 粒度 ， 可 以 锁 住 行 ， 也 可 以 锁 住 数 据 块 甚至 锁 住 整个 表格 。 由 
于 互联 网 业务 中 读 事务 的 比例 往往 远 远 高 于 写 事务 ， 为 了 提高 读 事务 性 能 ， 可 以 采 
用 写 时 复制 ( Copy-On-Write,COW) 或 者 多 版 本 并 友 控 制 ( Multi-Version 


Concurrency Control,MVCC ) 技术 来 避免 瑟 事 务 阻塞 读 事 务 。 
2.4.1 事务 


事务 是 数据 库 操作 的 基本 单位 ， 它 具有 原子 性 、 一 致 性 、 隔 离 性 和 持久 性 这 四 个 基 
本 属性 。 


(1) 原子 性 


事务 的 原子 性 首先 体现 在 事务 对 数据 的 修改 ， 即 要 么 全 都 执行 ， 要 么 全 都 不 执行 ， 
例如 ， 从 银行 账户 A 转 一 笔 款 项 a 到 账户 B， 结 果 必 须 是 从 A 的 账户 上 扣除 款项 a 并 且 在 
B 的 账户 上 增加 款项 a， 不 能 只 是 其 中 一 个 账户 的 修改 。 但 是 ， 事 务 的 原子 性 并 不 忌 
是 能 够 保证 修改 一 定 完 成 了 或 者 一 定 没有 进行 ， 例 如 ， 在 ATM 机 器 上 进行 上 述 转账 ， 


转账 指令 提交 后 通信 中 断 或 者 数据 库 主 机 异常 了 ， 那么 转账 可 能 完成 了 也 可 能 没有 
进行 : 如 果 通 信 中 断 发 生前 数据 库 主 机 完整 接收 到 了 转账 指令 且 后 续 执行 也 正常 ， 
那么 转账 成 功 完成 了 ; 如 果 转 账 指令 没有 到 达 数 据 库 主 机 或 者 虽然 到 达 但 后 续 执 行 
FE ( 例如 写 操作 日 志 失 败 或 者 账户 余额 不 足 ) ， 那 么 转账 融 没 有 进行 。 要 确定 转 
账 是 否 成 功 ， 需 要 待 通信 恢复 或 者 数据 库 主 机 恢复 后 查询 账户 交易 历史 或 余额 。 事 
务 的 原子 性 也 体现 在 事务 对 数据 的 读 取 上 ， 例 如 ， 一 个 事务 对 同一 数据 项 的 多 次 读 
取 的 结果 一 定 是 相同 的 。 


( 2 ) 一 致 性 


事务 需要 保持 数据 库 数 据 的 正确 性 、 完 整 性 和 一 致 性 ， 有 些 时 候 这 种 一 致 性 由 数据 
库 的 内 部 规则 保证 ， 例 如 数据 的 类 型 必须 正确 ， 数 据 值 必须 在 规定 的 范围 内 ， 等 
等 ; 另外 一 些 时 候 这 种 一 致 性 由 应 用 保证 ， 例 如 一 般 情 况 下 银行 账 务 余额 不 能 是 负 
数 ， 信 用 卡 消费 不 能 超过 该 卡 的 信用 额度 等 。 


( 3 ) 隔离 性 


许多 时 候 数据 库 在 并 发 执行 多 个 事务 ， 每 个 事务 可 能 需要 对 多 个 表 项 进行 修改 和 碍 
询 ， 与 此 同时 ， 更 多 的 查询 请 求 可 能 也 在 执行 中 。 数 据 库 需要 保证 每 一 个 事务 在 它 
的 修改 全 部 完成 之 前 ， 对 其 他 的 事务 是 不 可 见 的 ， 换 句 话说 ， 不 能 让 其 他 事务 看 到 
该 事务 的 中 间 状 态 ， 例 如 ， 从 银行 账 尸 A 转 一 笔 款 项 a 到 账户 B， 不 能 让 其 他 事务 ( 例 
如 账户 查询 ) 看 到 A 账户 已 经 扣除 款项 a 但 B 账 户 却 还 没有 增加 款项 a 的 状态 。 


(4) 持久 性 


事务 完成 后 ， 它 对 于 数据 库 的 影响 是 永久 性 的 ， 即 使 系统 出 现 各 种 异常 也 是 如 此 。 


出 于 性 能 考虑 ， 许 多 数据 库 允 许 使 用 者 选择 牺牲 隅 离 属性 来 换取 并 发 度 ， 从 而 获得 
性 能 的 提升 。SQL 定 义 了 4 种 隅 离 级 别 。 


eRead Uncommitted ( RU) : 读 取 未 提交 的 数据 ， 即 其 他 事务 已 经 修改 但 还 未 提交 
的 数据 ， 这 是 最 低 的 隔离 级 别 ; 


eRead Committed (RC) : 读 取 已 提交 的 数据 ， 但 是 ， 在 一 个 事务 中 ， 对 同一 个 
项 ， 前 后 两 次 读 取 的 结果 可 能 不 一 样 ， 例 如 第 一 次 读 取 时 另 一 个 事务 的 修改 还 没有 
提交 ， 第 二 次 读 取 时 已 经 提交 了 ，; 


eRepeatable Read (RR) : 可 重复 读 取 ， 在 一 个 事务 中 ， 对 同一 个 项 ， 确 保 前 后 
两 次 读 取 的 结果 一 样 ， 


eSerializable (S) : 可 序列 化 ， 即 数据 库 的 事务 是 可 串 行 化 执行 的 ， 束 像 一 个 事 
务 执行 的 时 候 没 有 别 的 事务 同时 在 执行 ， 这 是 最 高 的 隔离 级 别 。 


隔离 级 别 的 降低 可 能 导致 读 到 脏 数 据 或 者 事务 执行 异常 ， 例 如 : 


eLost Update (LU) : 第 一 类 丢失 更 新 : 两 个 事务 同时 修改 一 个 数据 项 ， 但 后 一 个 
事务 中 途 失 败 回 滚 ， 则 前 一 个 事务 已 提交 的 修改 都 可 能 丢失 ; 


eDirty Reads (DR) :一 个 事务 读 取 了 另外 一 个 事务 更 新 却 没有 提交 的 数据 项 ; 


eNon-Repeatable Reads ( NRR) : 一 个 事务 对 同一 数据 项 的 多 次 读 取 可 能 得 到 不 
同 的 结果 ; 


eSecond Lost Updates problem (SLU) : 第 二 类 丢失 更 新 : 两 个 并 发 事务 同时 
读 取 和 修改 同一 数据 项 ， 则 后 面 的 修改 可 能 使 得 前 面 的 修改 失效 ; 


ePhantom Reads (PR) : 事务 执行 过 程 中 ， 由 于 前 面 的 查询 和 后 面 的 查询 的 期 间 
有 另外 一 个 事务 插入 数据 ， 后 面 的 查询 结果 出 现 了 前 面 查 询 结果 中 未 出 现 的 数据 。 


表 2- 3 说 明了 隔离 级 别 与 读 写 异 弟 (不一致 ) 的 天 系 。 容 易 友 现 ， 所 有 的 隔离 级 别 都 
保证 不 会 出 现 第 一 类 丢失 更 新 ， 另 外 ， 在 最 高 隔离 级 别 ( Serializable) F, 数据 
不 会 出 现 读 写 的 不 一 致 。 


表 2-3 隔离 级 别 与 读 写 异常 的 关系 





事务 分 为 几 种 类 型 : 读 事 务 ， 写 事务 以 及 读 写 混合 事务 。 相 应 地 ， 锁 也 分 为 两 种 类 
型 : 读 锁 以 及 写 锁 ， 人 允许 对 同一 个 元 素 加 多 个 读 锁 ， 但 只 允许 加 一 个 写 锁 ， 且 写 事 
务 将 阻塞 读 事务 。 这 里 的 元 素 可 以 是 一 行 ， 也 可 以 是 一 个 数据 块 甚至 一 个 表格 。 事 
务 如 果 只 操作 一 行 ， 可 以 对 该 行 加 相应 的 读 锁 或 者 写 锁 ; 如 果 操 作 多 行 ， 需 要 锁 住 
AMTER 


表 2-4 中 T1 和 T2 两 个 事务 操作 不 同行 ， 初 始 时 A=B=25，T1 将 A 加 168，T2 将 B 乘 以 2 , 
由 于 T1 和 T2 操 作 不 同行 ， 两 个 事务 没有 锁 ; 中 突 ， 可 以 并 行 执行 而 不 会 破坏 系统 的 一 
致 性 。 


R 2-4 TTL 


表 2-5 中 T1 扫 摘 从 A 到 Cc 的 所 有 行 ， 将 它们 的 结果 相 加 后 更 新 A， 初 始 时 A=C=25， 假 设 
在 T1 执 行 过 程 中 T2 揪 入 一 行 B， 那 么 ， 事 务 T1 和 T2 无 法 做 到 可 串 行 化 。 为 了 保证 数 
据 库 一 致 性 ，T1 执 行 范围 扫描 时 需要 锁 住 从 A 到 c 这 个 范围 的 所 有 更 新 ，T2 插 入 B 
时 ， 由 于 整个 范围 被 锁 住 ，T2 获 取 锁 失败 而 等 待 T1 先 执行 完成 。 


表 2-5 事务 读 取 一 段 数据 范围 


SCAN([A=>C], {t1,t3}) p 


INSERT(B, t2) 


WRITE(A, t) | 





多 个 事务 并 上 友 执 行 可 能 引入 死 锁 。 表 2-6 中 T1 读 取 A， 然 后 将 A 的 值 加 186 后 更 新 B,T2 
读 取 B， 然 后 将 B 的 值 乘 以 2 更 新 A， 初 始 时 A=B=25。T1 持 有 A 的 读 锁 ， 需 要 获取 B 的 写 
锁 ， 而 T2 持 有 B 的 读 锁 ， 需 要 A 的 写 锁 。T1 和 T2 这 两 个 事务 循环 依赖 ， 任 何 一 个 事务 
都 无 法 顺利 完成 。 


X 2-6 数据 库 死 锁 


ve | | 
解决 死 锁 的 思路 主要 有 两 种 : 第 一 种 思路 是 为 每 个 事务 设置 一 个 超时 时 间 ， 超 时 后 
自动 回 深 ， 表 2-6 中 如 果 T1 或 1T2 二 者 之 中 的 某 个 事务 回 滚 ， 则 另外 一 个 事务 可 以 成 


功 执行 。 第 二 种 思路 是 死 锁 检测 。 和 死 锁 出 现 的 原因 在 于 事务 乙 间 互 相依 赖 ，T1 依 赖 
T2，T2 又 依赖 T1， 依赖 天 系 构成 一 个 环 路 。 检 测 到 死 锁 后 可 以 通过 回 浚 其 中 录 些 事 
务 来 消除 循环 依赖 。 


2 . 写 时 复制 


互联 网 业务 中 读 事务 占 的 比例 往往 远 远 超过 写 事 务 ， 很 多 应 用 的 读 写 比例 达到 6:1 ， 
甚至 16:1。 写 时 复制 ( Copy-On-Write,COW) 读 操作 不 用 加 锁 ， 极 大 地 提高 了 读 取 
性 能 。 


2-16 中 写 时 复制 B+ 树 执行 写 操作 的 步骤 如 下 。 
1) 拷贝 : 将 从 叶子 到 根 节 点 路 径 上 的 所 有 书 点 拷贝 出 来 。 


2 ) 修改 : 对 拷贝 的 书后 执行 修改 。 


如 果 读 操作 友 生 在 第 3 步 提交 之 前 ， 那么， 将 读 取 老 节 点 的 数据 ， 否则 将 读 取 新 节 
所 ， 读 操作 不 需要 加 锁 保护 。 写 时 复制 技术 涉及 引用 计数 ， 对 每 个 节操 维护 一 个 引 
用 计数 ， 表 示 被 多 少 节 点 引用 ， 如 果 引 用 计数 变 为 9， 说 明 没 有 节点 3 引用， 可 以 被 垃 
圾 回收 。 


由 


写 时 复制 技术 原理 人 简单， 问题 是 每 次 写 操作 都 需要 拷贝 从 叶子 到 根 节 后 路 径 上 的 所 
有 节点 ， 写 操作 成 本 高 ， 另外， 多 个 写 操作 之 间 是 互 斥 的， 同一 时 刻 只 人 允许 一 个 写 
操作 。 


由 
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3. 多 版 本 并 发 控制 

除了 写 时 复制 技术 ， 多 版 本 并 发 控制 ， 即 MVCC ( Multi-Version Concurrency 
Control) ， 也 能 够 实现 读 事 务 不 加 锁 。MVCC 对 每 行 数据 维护 多 个 版 本 ， 无 论 事务 
的 执行 时 间 有 多 长 ，MVCC 忠 是 能 够 提供 与 事务 开始 时 刻 相 一 致 的 数据 。 


以 MySQL InnoDB 存 储 引 擎 为 例 ，InnoDB 对 每 一 行 维护 了 两 个 隐 含 的 列 ， 其 中 一 列 
存储 行 被 修改 的 “时 间 ”， 另 外 一 列 存储 行 被 删除 的 “时 间 ”， 注意 ，InnoDB 和 存储 
的 并 不 是 绝对 时 间 ， 而 是 与 时 间 对 应 的 数据 库 系 统 的 版 本 号 ， 每 当 一 个 事务 开始 
时 ，InnoDB 都 会 给 这 个 事务 分 配 一 个 递增 的 版 本 号 ， 所 以 版 本 号 也 可 以 被 认为 是 事 
务 号 。 对 于 每 一 行 查询 语句 ，InnoDB 都 会 把 这 个 查询 语句 的 版 本 号 同 这 个 查询 语句 


遇 到 的 行 的 版 本 号 进行 对 比 ， 然 后 结合 不 同 的 事务 隔离 级 别 ， 来 决定 是 否 返 回 改 


J: 


— 


下 面 分 别 以 SELECT、DELETE、INSERT、UPDATE 语 句 来 说 明 。 

(1) SELECT 

对 于 SELECT 语句 ， 只 有 同时 满足 了 下 面 两 个 条 件 的 行 ， 才 能 被 返回 : 
a ) 行 的 修改 版 本 号 小 于 等 于 该 事务 号 。 

b ) 行 的 删除 版 本 号 要 么 没有 被 定义 ， 要 么 大 于 事务 的 版 本 号 。 


如 果 行 的 修改 或 者 删除 版 本 号 大 于 事务 号 ， 说 明 行 是 被 该 事务 后 面 启动 的 事务 修改 
或 者 删除 的 。 在 可 重复 读 取 隔离 级 别 下 ， 后 开始 的 事务 对 数据 的 影响 不 应 该 被 先 开 
始 的 事务 看 见 ， 所 以 应 该 忽略 后 开始 的 事务 的 更 新 或 者 删除 操作 。 


( 2 ) INSERT 
对 新 插入 的 行 ， 行 的 修改 版 本 号 更 新 为 该 事务 的 事务 号 。 
( 3 ) DELETE 


对 于 删除 ，InnoDB 直 接 把 该 行 的 删除 版 本 号 设置 为 当前 的 事务 号 ， 相 当 于 标记 为 删 
除 ， 而 不 是 物理 删除 。 


( 4 ) UPDATE 


在 更 新 行 的 时 候 ，InnoDB 会 把 原来 的 行 复 制 一 份 ， 并 把 当前 的 事务 号 作为 该 行 的 修 
改版 本 号 。 


MVCC 读 取 数 据 的 时 候 不 用 加 锁 ， 每 个 查询 都 通过 版 本 检查 ， 只 获得 自己 需要 的 数据 
版 本 ， 从 而 大 大 提高 了 系统 的 并 发 度 。 当 然 ， 为 了 实现 多 版 本 ， 必 须 对 每 行 存储 额 
外 的 多 个 版 本 的 数据 。 另 外 ，MVCC 和 存储 引擎 还 必须 定期 删除 不 再 需要 的 版 本 ， 及 时 
回收 空间 。 


2.5 故障 恢复 


数据 库 运 行 过 程 中 可 能 会 发 生 故 障 ， 这 个 时 候 某 些 事务 可 能 执行 到 一 半 但 没有 提 
交 ， 当 系统 重启 时 ， 需 要 能 够 恢复 到 一 致 的 状态 ， 即 要 么 提交 整个 事务 ， 要 么 回 
滚 。 数 据 库 系统 以 及 其 他 的 分 布 式 存 储 系统 一 般 采 用 操作 日 志 ( 有 时 也 称 为 提交 日 
志 ， 即 Commit Log ) 技术 来 实现 故障 恢复 。 操 作 日 志 分 为 回 滚 日 志 ( UNDO 

Log). 、 重 做 日 志 (REDO Log ) 以 及 UNDOVZREDo 日 志 。 如 果 记 录 事 务 修改 前 的 状 
态 ， 则 为 回 滚 日 志 ; 相应 地 ， 如 果 记 录 事 务 修改 后 的 状态 ， 则 为 重 做 日 志 。 本 节 介 
绍 操作 日 志 及 故障 恢复 基础 知识 。 


2.5.1 操作 日 志 


为 了 保证 数据 库 的 一 致 性 ， 数 据 库 操作 需要 持久 化 到 磁盘 ， 如 果 每 次 操作 都 随机 更 
新 磁盘 的 某 个 数据 块 ， 系 统 性 能 将 会 很 差 。 因 此 ， 通 过 操作 日 志 顺 序 记录 每 个 数据 
库 操 作 并 在 内 存 中 执行 这 些 操作 ， 内 存 中 的 数据 定期 刷新 到 磁盘 ， 实 现 将 随机 写 请 
求 转 化 为 顺序 写 请 求 。 


操作 日 志 记 录 了 事务 的 操作 。 例 如 ， 事务 T 对 表格 中 的 x 执行 加 16 操 作 ， 初始 时 
X=5， 更 新 后 X=15， 那么 ，UNDO 日 志 记 为 <T,X，5 > ，REDO 日 志 记 为 <T,X，, 15 


> ，UNDO/AREDO 日 志 记 为 <T,X，,，5，,15>。 


关系 数据 库 系 统一 般 采 用 UNDOAREDO 日 志 ， 相关 技术 可 以 参考 数据 库 系统 实现 方面 


的 资料 。 可 以 将 关系 数据 库存 储 模型 做 一 定 程 度 的 简化 : 
1) 假设 内 存 足 够 大 ， 每 次 事务 的 修改 操作 都 可 以 缓存 在 内 存 中 。 


2 ) 数据 库 的 每 个 事务 只 包含 一 个 操作 ， 即 每 个 事务 都 必须 立即 提交 ( Auto 


Commit ) 。 


REDO 日 志 要 求 我 们 将 所 有 未 提交 事务 修改 的 数据 块 保留 在 内 存 中 。 简 化 后 的 存储 模 
型 可 以 及 用 单一 的 REDO 日 志 ， 大 大 简化 了 存储 系统 故障 恢复 。 


2.5.2 重 做 日 志 

存储 系统 如 果 采 用 REDO 日 志 ， 其 写 操作 流程 如 下 : 

1 ) 将 REDO 日 志 以 追加 写 的 方式 写 入 磁盘 的 日 志文 件 。 
2 ) 将 REDO 日 志 的 修改 操作 应 用 到 内 存 中 。 

3 ) 返回 操作 成 功 或 者 失败 。 


REDO 日 志 的 约束 规则 为 : 在 修改 内 存 中 的 元 素 Xx 之 前 ， 要 确保 与 这 一 修改 相关 的 操作 
日 志 必 须 先 刷 入 到 磁盘 中 。 顾 名 思 义 ， 用 REDo 日 志 进 行 故障 恢复 ， 只 需要 从 头 到 尾 
读 取 日 志文 件 中 的 修改 操作 ， 并 将 它们 逐个 应 用 到 内 存 中 ， 即 重 做 一 饥 。 


为 什么 需要 移 写 操作 日 志 再 修改 内 存 中 的 数据 呢 ? 假如 先 修 改 内 存 中 的 数据 ， 那 么 
用 尸 就 能 立刻 读 到 修改 后 的 结果 ， 一旦 在 完成 内 存 修改 与 写 入 日 志 之 间 友 生 故 障 ， 
那么 最 近 的 修改 操作 无 法 恢复 。 然 而 ， 之 前 的 用 户 可 能 已 经 读 取 了 修改 后 的 结果 ， 
这 融会 产生 不 一 致 的 情况 。 


2.5.3 优化 手段 
1 .成 组 提交 


人 存储 系统 要 求 先 将 REDO 日 志 刷 入 磁盘 才 可 以 更 新 内 存 中 的 数据 ， 如 果 每 个 事务 都 要 
求 将 日 志 立 即 刷 入 磁盘 ， 系 统 的 吞吐 量 将 会 很 差 。 因 此 ， 存 储 系统 往往 有 一 个 是 否 
立即 刷 入 磁盘 的 选项 ， 对 于 一 致 性 要 求 很 高 的 应 用 ， 可 以 设置 为 立即 刷 入 ; 相应 
地 ， 对 于 一 致 性 要 求 不 太 高 的 应 用 ， 可 以 设置 为 不 要 求 立 即 刷 入 ， 首 先 将 REDO 日 志 
缓 仓 到 操作 系统 或 者 存储 系统 的 内 存 缓冲 区 中 ， 定 期 刷 入 磁盘 。 这 种 做 法 有 一 个 问 
题 ， 如 果 人 存储 系统 意外 故障 ， 可 能 丢失 最 后 一 部 分 更 新 操作 。 


成 组 提交 (Group Commit ) 技术 是 一 种 有 效 的 优化 手段 。REDO 日 志 首 先 写 入 到 存储 
系统 的 日 志 缓 冲 区 中 : 


a) 日 志 缓 冲 区 中 的 数据 量 超 过 一 定 大 小 ， 比 如 512KB ; 
b ) 距离 上 次 刷 入 磁盘 超过 一 定时 间 ， 比如 1ems。 


当 满 足以 上 两 个 条 件 中 的 某 一 个 时 ， 将 日 志 缓 冲 区 中 的 多 个 事务 操作 一 次 性 刷 入 磁 
盘 ， 接 着 一 次 性 将 多 个 事务 的 修改 操作 应 用 到 内 存 中 并 逐个 返回 客户 端 操作 结果 。 
与 定期 刷 入 磁盘 不 同 的 是 ， 成 组 提交 技术 保证 REDO 日 志 成 功 刷 入 磁盘 后 才 返 回 写 操 
作成 功 。 这 种 做 法 可 能 会 牺牲 写 事务 的 延 时 ， 但 大 大 提高 了 系统 的 吞吐 量 。 


2 .检查 点 
如 果 所 有 的 数据 都 保存 在 内 存 中 ， 那 么 可 能 出 现 两 个 问题 : 


e 故 障 恢 复 时 需要 回放 所 有 的 RED0 日 志 ， 效 率 较 低 。 如 果 REDO 日 志 较 多 ， 比 如 超过 


166GB， 那 么 ， 故 障 恢复 时 间 是 无 法 接受 的 。 


e 内 存 不 足 。 即 使 内 存 足够 大 ， 人 存储 系统 往往 也 只 能 够 缓存 最 近 较 长 一 段 时 间 的 更 新 
操作 ， 很 难 缓存 所 有 的 数据 。 


因此 ， 需 要 将 内 存 中 的 数据 定期 转 储 (Dump ) 到 磁盘 ， 这 种 技术 称 为 

checkpoint ( 检查 点 ) 技术 。 系 统 定 期 将 内 存 中 的 操作 以 某 种 易于 加 载 的 形式 

( checkpoint 文 件 ) 转 储 到 磁盘 中 ， 并 记录 checkpoint 时 刻 的 日 志 回 放 点 ， 以 后 
故障 恢复 只 需要 回放 checkpoint 时 刻 的 日 志 回 放 点 之 后 的 REDO 日 志 。 


由 于 将 内 存 数据 转 储 到 磁盘 需要 很 长 的 时 间 ， 而 这 段 时 间 还 可 能 有 新 的 更 新 操作 ， 
checkpoint 必 须 找到 一 个 一 致 的 状态 。checkpoint 流 程 如 下 : 


1) 日 志文 件 中 记录 "START CKPT" , 


2 ) 将 内 存 中 的 数据 以 某 种 易于 加 载 的 组 织 方式 转 储 到 磁盘 中 ， 形 成 checkpoint 文 
件 。checkpoint 文 件 中 往往 记录 “START CKPT” 的 日 志 回 放 点 ， 用 于 故障 恢复 。 


3) 日 志文 件 中 记录 "END CKPT" , 
故障 恢复 流程 如 下 : 


1) 将 checkpoint 文 件 加 载 到 内 人 存 中 ， 这 一 步 操作 往往 只 需要 加 载 率 引 数 据 ， 加载 


2 ) 读 取 checkpoint 文 件 中 记录 的 “START CKPT” 日 志 回 放 点 ， 回 放 之 后 的 REDO 日 


= 
Po 


上 述 checkpoint 故 障 恢复 方式 依赖 REDO 日 志 中 记录 的 都 是 修改 后 的 结果 这 一 特性 ， 


也 就 是 说 ， 即 使 checkpoint 文 件 中 已 经 包含 了 某 些 操作 的 结果 ， 重 新 回放 一 次 或 者 
多 次 这 些 操作 的 REDo 日 志 也 不 会 造成 数据 错误 。 如 果 同 一 个 操作 执行 一 次 与 重复 执 
行 多 次 的 效果 相同 ， 这 种 操作 具有 “ 朝 等 性 ”。 有 些 操作 不 具备 这 种 特性 ， 例 如 ， 
加 法 操作 、 追 加 操作 。 如 果 REDo 日 志 记 录 的 是 这 种 操作 ， 那 么 checkpoint 文 件 中 的 
数据 一 定 不 能 包含 “START CKPT" 与 “END CKPT” 之 间 的 操作 。 为 此 ， 主 要 有 两 
种 处 理 方法 : 


echeckpoint 过 程 中 停止 写 服务 ， 所 有 的 修改 操作 直接 失败 。 这 种 方法 实现 简单 ， 
但 不 适合 在 线 业务 。 


e 内 存 数据 结构 支持 快照 。 执 行 checkpoint 操 作 时 首先 对 内 存 数据 结构 做 一 次 快 
照 ， 接 着 将 快照 中 的 数据 转 储 到 磁盘 生成 checkpoint 文 件 ， 并 记录 此 时 对 应 的 REDO 
日 志 回 放 点 。 生 成 checkpoint 文 件 的 过 程 中 允许 写 操作 ， 但 checkpoint 文 件 中 的 
快照 数据 不 会 包含 这 些 操作 的 结果 。 


2.6 数据 压缩 


数据 压缩 分 为 有 损 压 缩 与 无 损 压 缩 两 种 ， 有 损 压 缩 算法 压缩 比率 高 ， 但 数据 可 能 
真 ， 一 般 用 于 压缩 图 片 、 音 频 、 视 频 ; 而 无 损 压 缩 算 法 能 够 完全 还 原 原 始 数据 ， 本 
文 只 讨论 无 损 压 缩 算法 。 早 期 的 数据 压缩 技术 就 是 基于 编码 上 的 优化 技术 ， 其 中 以 
Huffman 编 码 最 为 知名 ， 它 通过 统计 字符 出 现 的 频率 计算 最 优 前 缀 编码 。1977 年 ， 
以 色 列 人 Jacob Ziv 和 Abraham Lempel1 上 友 表 论文 《顺序 数据 压缩 的 一 个 通用 算 
法 》， 从 此 ，Lz 系 列 压 缩 算 法 几乎 垄断 了 通用 无 损 压 缩 领域 ， 常 用 的 Gzip 算法 中 使 
用 的 LZ77，GIF 图 片 格式 中 使 用 的 LZNW， 以 及 LZ0 等 压缩 算法 都 属于 这 个 系列 。 设 计 
压缩 算法 时 不 仅 要 考虑 压缩 比 ， 还 要 考虑 压缩 算法 的 执行 效率 。Google Bigtable 
系统 中 采用 BMDiff 和 Zippy 压 缩 算法 ， 这 两 个 算法 也 是 LZ 算 法 的 变种 ， 它 们 通过 牺 


牲 一 定 的 压缩 比 ， 损 来 执行 效率 的 大 幅 提升 。 


压缩 算法 的 核心 是 找 重复 数据 ， 列 式 存 储 技术 通过 把 相同 列 的 数据 组 织 在 一 起 ， 不 
仅 减 少 了 大 数据 分 析 需 要 查询 的 数据 量 ， 还 大 大 地 提高 了 数据 的 压缩 比 。 传 统 的 
OLAP ( Online Analytical Processing) 数据 库 ， 如 Sybase IQ, Teradata , 
以 及 Bigtable、HBase 等 分 布 式 表 格 系统 都 实现 了 列 式 存储。 本 节 介 绍 数据 压缩 以 
及 列 式 存 储 相关 的 基础 知识 。 


2.6.1 压缩 算法 


压缩 是 一 个 专门 的 研究 课题 ， 没 有 通用 的 做 法 ， 需 要 根据 数据 的 特点 选择 或 者 目 己 
开 友 合适 的 算法 。 压 缩 的 本 质 丈 是 找 数 据 的 重复 或 者 规律 ， 用 尽量 少 的 字 世 表示 。 


Huffman 编 码 是 一 种 基于 编码 的 优化 技术 ， 通 过 统计 字符 出 现 的 频率 来 计算 最 优 前 
经 编码 。LZz 系 列 算法 一 般 有 一 个 窗口 的 概念 ， 在 窗口 内 部 找 重复 并 维护 数据 字典 。 
常用 的 压缩 算法 包括 G6zip、LZW、LZ0， 这 些 算 法 都 借鉴 或 改进 了 原始 的 LZ77 算 法 , 
如 Gzip 压 缩 混合 使 用 了 LZ77 以 及 Huffman 编 码 ，LZW 以 及 LZ0 算 法 是 LZ77 思 想 在 实现 
手段 的 进一步 优化 。 存 储 系统 在 选择 压缩 算法 时 需要 考虑 压缩 比 和 效率 。 读 操作 需 
要 先 读 取 磁盘 中 的 内 容 再 解压 缩 ， 写 操作 需要 先 压 缩 再 将 压缩 结果 写 入 到 磁盘 , 
个 操作 的 延 时 包括 压缩 /解压 缩 和 磁盘 读 写 的 延迟 ， 压 缩 比 越 大 ， 磁 盘 读 写 的 数据 量 
越 小 ， 而 压缩 /解压 缩 的 时 间 也 会 越 长 ， 所 以 这 里 需要 一 个 很 好 的 权衡 点 。Google 
Bigtable 系 统 中 使 用 了 BMDiff 以 及 zippy 两 种 压缩 算法 ， 它 们 通过 牺牲 一 定 的 压缩 
比 换取 算法 执行 速度 的 大 幅 提升 ， 从 而 获得 更 好 的 折衷 。 


1.Huffman 编 码 


前 缀 编码 要 求 一 个 字符 的 编码 不 能 是 另 一 个 字符 的 前 缀 。 假 设 有 三 个 字符 A、B、 人 ， 


它们 的 二 进 制 编码 分 别 是 e、1、81， 如 果 我 们 收 到 一 段 信息 是 81616， 解 码 时 我 们 
如 何 区 分 是 CCA 还 是 ABABA， 或 者 ABCA 呢 ? 一 种 解决 方案 残 是 前 缀 编码 ， 要 求 一 个 字 


符 编 码 不 能 是 另外 一 个 字符 编码 的 前 缀 。 如 果 使 用 前 缀 编码 将 A、B、 编码 为 : 
A:0 B:10 C: 110 


这 样 ，61816 束 只 能 被 翻译 成 ABB。Huffman 编 码 需 要 解决 的 问题 是 ， 如 何 找 出 一 种 
前 缀 编码 方式 ， 使 得 编码 的 长 度 最 短 。 


假设 有 一 个 字符 串 3334444555556666667777777， 它 是 由 3 个 3，4 个 4 ，5 个 5 ，6 个 
6 ，7 个 7 组 成 的 。 那 么 ， 对 应 的 前 缀 编码 可 能 是 : 


1) 3:000 4:001 5:010 6:011 7:1 
2) 3:000 4:001 7:01 5:10 6:11 


第 1 种 编码 方式 的 权 值 为 ( 3+4+5+6 ) *3+7*1=61， 而 第 2 种 编码 方式 的 权 值 为 

( 3+4 ) *3+ ( 5+6+7 ) *2=57。 可 以 看 出 ， 第 2 种 编码 方式 的 长 度 更 短 ， 而 且 我 们 还 
可 以 知道 ， 第 2 种 编码 方式 是 最 优 的 Huffman 编 码 。Huffman 编 码 的 构造 过 程 不 在 本 
书 讨论 范围 乙 内 ， 感 兴趣 的 读者 可 以 参考 数据 结构 的 相关 图 书 。 


2.LZ 系 列 压缩 算法 


LZ 系 列 压缩 算法 是 基于 字典 的 压缩 算法 。 假 设 需要 压缩 一 篇 英文 文章 ， 最 容易 想到 
的 压缩 算法 是 构造 一 本 英文 字典 ， 这 样 ， 我 们 只 需要 保存 每 个 单词 在 字典 中 出 现 的 
页 码 和 位 置 残 可 以 了 。 页 码 用 两 个 字 节 ， 位 置 用 一 个 字 节 ， 那 么 一 个 单词 需要 使 用 
三 个 字 忆 表示， 而 我 们 知道 一 般 的 英语 单词 长 度 都 在 三 个 字 节 以 上 。 因 此 ， 我 们 实 
现 了 对 这 篇 英文 文章 的 压缩 。 当 然 ， 实 际 的 通用 压缩 算法 不 能 这 么 做 ， 因 为 我 们 在 


解压 时 需要 一 本 英文 字典 ， 而 这 部 分 信息 是 压缩 程序 不 可 预知 的 ， 同 时 也 不 能 保存 
在 压缩 信息 里 面 。LZ 系 列 的 算法 是 一 种 动态 创建 字典 的 方法 ， 压 缩 过 程 中 动态 创建 
字典 并 保存 在 压缩 信息 里 面 。 


LZ77 是 第 一 个 LZ 系 列 的 算法 ， 比 如 字符 串 ABCABCDABC 中 ABC 重复 出 现 了 三 次 ， 压 缩 
言 息 中 只 需要 保存 第 一 个 ABC， 后 面 两 个 ABC 只 需要 把 第 一 个 出 现 ABC 的 位 置 和 长 度 
存储 下 来 就 可 以 了 。 这 样 ， 保 存 后 面 两 个 ABC 就 只 需要 一 个 二 元 数组 < 匹配 串 的 相对 
位 置 ， 匹 配 长 度 > 。 解 压 的 时 候 ， 根 据 匹 配 串 的 相对 位 置 ， 向 前 找到 第 一 个 ABC 的 位 
置 ， 然 后 根据 匹配 的 长 度 ， 直 接 把 第 一 个 ABC 复制 到 当前 解压 缓冲 区 里 面 就 可 以 了 。 


如 表 2-7 所 示 ，{Sj* 表 示 字 符 串 s 的 所 有 子 串 构成 的 集合 ， 例 如 ，{ABC}# 是 字符 串 
A、B、C、AB、BC、ABC 构 成 的 集合 。 每 一 步 执行 时 如 果 能 够 在 压缩 字典 中 找到 匹配 
串 ， 则 输出 匹配 信息 ; 否则 ， 输 出 源 信息 。 执 行 第 1 步 时 ， 压 缩 字典 为 空 ， 输 出 字 
TPOA HR C 加 入 到 压缩 字典 ; 执行 第 2 步 时 ， 压缩 字典 为 {A}*， 输 出 字 
fi 'B”， 并 将 'B” 加 入 到 压缩 字典 ; 依次 类 推 。 执 行 到 第 4 步 和 第 6 步 时 发 现 字 符 
ABC 之 前 已 经 出 现 过 ， 输 出 匹配 的 位 置 和 长 度 。 


表 2-7 字符 串 ABCABCDABC 的 LZ 压缩 过 程 


l ABCABCDABC 





BCABCDABC 3 
5 


{ABCABC}* D 


6 ABC {ABCABCD}* <0, 3> 





{ABCABCDABC}* 


Lz 系 列 压缩 算法 有 如 下 几 个 问题 : 


1 ) 如 何 区 分 匹配 信息 和 源 信息 ? 通用 的 解决 方法 是 额外 使 用 一 个 位 ( bit ) 来 区 分 
压缩 信息 里 面 的 源 信息 和 匹配 信息 。 


2 ) 需要 使 用 多 少 个 字 节 表示 匹配 信息 ? 记录 重复 信息 的 匹配 信息 包含 两 项 ， 一 个 是 
匹配 串 的 相对 位 置 ， 另 一 个 是 匹配 的 长 度 。 例 如 ， 可 以 采用 固定 的 两 个 字 节 来 表示 

匹配 信息 ， 其 中 ，1 位 用 来 区 分 源 信 息 和 匹配 信息 ，11 位 表示 匹配 位 置 ，4 位 表示 匹 
配 长 度 。 这 样 ， 压 缩 算 法 文 持 的 最 大 数据 窗口 为 211=2648 字 节 ， 文 持 重 复 串 的 最 大 
长 度 为 24=16 字 节 。 当 然 ， 也 可 以 采用 变 长 的 方式 表示 匹配 信息 。 


3 ) 如 何 快速 查找 最 长 匹配 串 ? 最 容易 想到 的 做 法 是 把 字符 串 的 所 有 子 串 都 仔 放 到 一 
张 哈 硕 表 中 ， 表 2- 7 中 第 4 步 执行 前 哈 希 表 中 包含 ABC 的 所 有 子 串 ， 即 A、AB、 BC, 
ABC。 这 种 做 法 的 运行 效率 很 低 ， 实 际 的 做 法 往往 会 做 一 些 改 进 。 例 如 ， 哈 希 表 中 只 
保存 所 有 长 度 为 3 的 子 捉 ， 如 果 在 数据 字典 中 找到 匹配 串 ， 即 前 3 个 字 世 相同， 接着 
再 往 后 顺序 遍历 找 出 最 长 匹配 。 


3.BMDiff5zippy 


企 Google 的 Bigtable 系 统 中 ， 设 计 了 BMDiff 和 Zippy 两 种 压缩 算法 。BMDiff 和 
Zippy ( 也 称 为 Ssnappy ) 也 属于 LZ 系 列 ， 相 比 传统 的 LZW 或 者 Gzip， 这 两 种 算法 的 
压缩 比 不 算 高 ， 但 是 处 理 速 度 非 常 快 。 如 表 2-8 所 示 ，Zippy 和 BMDiff 的 压缩 /解压 
缩 速度 是 Gzip 算法 的 5 ~ 16 倍 。 


表 2-8 各 种 压缩 算法 对 比 


算 法 压 缩 比 压缩 速度 解压 缩 速 度 


BMDiff 1000MB/s 





相 比 原始 的 LZ77，Zzippy 实 现时 主要 做 了 如 下 改进 : 


1) 压缩 字典 中 只 保存 所 有 长 度 为 4 的 子 串 ， 只 有 重复 匹配 的 长 度 大 于 等 于 4， 才 输出 
匹配 信息 ; 否则 ， 输 出 源 信息 。 另 外 ，Zzippy 算 法 中 的 压缩 字典 只 保存 最 后 一 个 长 度 
等 于 4 的 子 串 的 位 置 ， 以 ABCDEABCDABCDE 为 例 ，Zzippy 算 法 的 过 程 参 见 表 2-9。 


表 2-9 Google Zippy 压缩 算法 





I ABCDEABCDABCDE A 
2 BCDEABCDABCDE B 
CDEABCDABCDE C 
4 DEABCDABCDE D 
EABCDABCDE E 

6 ABCDABCDE «0, 4> 
9 "s 


i Tl e | | 


zippy 算 法 执行 完 第 4 步 后 ， 发现“ABCD” 出 现 过 ， 于 是 在 压缩 字典 中 记 

录 “ABCD” 第 一 次 出 现 的 位 置 ， 即 位 置 e。 执 行 到 第 6 步 时 发 现 ABCD 之 前 出 现 过 ， 输 
出 匹配 信息 ， 同 时 将 数据 字典 中 记录 的 ABCD 的 位 置 更 新 为 第 二 个 ABCD 的 位 置 ， 即 位 
Bio; 执行 到 第 7 步 时 ， 虽 然 ABCDE 之 前 都 出 现 过 ， 但 由 于 数据 字典 中 记录 的 是 第 二 
个 ABCD 的 位 置 ， 因 此 ， 重 复 串 为 ABCD， 而 不 是 理想 的 ABCDE。Zippy 的 这 种 实现 方 
式 牺 牲 了 压缩 比 ， 但 是 提升 了 性 能 。 


2 ) Zippy 内 部 将 数据 划分 为 一 个 一 个 长 度 为 32KB 的 数据 块 ， 每 个 数据 块 分 别 压缩 ， 
多 个 数据 块 之 间 没 有 联系 ， 因 此 ， 只 需要 两 个 字 节 ( 确切 地 说 ，15 个 位 ) 就 可 以 表 
示 匹 配 串 的 相对 位 置 。 另 外 ，Zzippy 内 部 还 对 匹配 信息 的 表示 进行 了 精心 的 设计 ， 采 
变 长 的 表示 方法 。 如 果 匹 配 长 度 小 于 12 个 字 节 ( 由 于 前 面 4 个 字 节 总 是 相同 ， 所 以 
4 < = 匹配 长 度 < 12， 可 以 通过 3 个 位 来 表示 ) 且 匹 配 位 置 小 于 2648， 则 使 用 两 个 字 


PRJ; 人 否则， 使 用 更 多 的 字 节 表示 。 总 而 言 乙 ，Zippy 对 匹配 信息 的 编码 和 实现 都 
非 钊 精妙 ， 感 兴趣 的 读者 可 以 阅读 开源 的 snappy 项 目的 源 代码 。 


相 比 Zippy, BMDiff 算 法 实现 显得 更 为 激进 。BMDiff 算 法 将 待 压缩 数据 拆 分 为 长 度 
为 b ( 默认 情况 下 b=32 ) 的 小 段 6......b-1，, b......2b-1 , 2b......3b-1 , 以 此 类 推 。 
BMDiff 的 字典 中 保存 了 每 个 小 段 的 哈 希 值 ， 因 此 ， 长 度 为 N 的 字符 串 需要 的 哈 希 表 
大 小 为 NAb。 与 Zippy 算 法 不 同 的 是 ，BMDiff 算 法 并 没有 保存 每 个 长 度 为 b 的 子 串 的 
哈 希 值 ， 这 种 方式 带 来 的 问题 是 ， 某 些 重 复 长 度 超过 b 的 子 串 可 能 无 法 被 压缩 。 例 
如 ， 待 压缩 字符 串 为 EABCDABCD, b=4， 字 典 中 保 仔 了 EABC 和 DABC 两 个 子 串 ， 昌 然 
ABCD 重 复出 现 了 两 次 ， 但 无 法 被 压缩 。 然 而 ， 可 以 证 明 ， 只 要 重复 长 度 超过 2b-1 ， 
那么 一 定 能 够 在 字典 中 找到 。 假 如 待 压 缩 字符 串 还 是 EABCDABCD, b=2， 那 么 字典 中 
保 仔 了 EA、BC、DA、BC， 压 缩 程序 处 理 第 二 个 BC 的 时 候 ， 友 现 之 前 BC 已 经 出 现 过 ， 
因此 ， 往 前 往 后 找到 最 长 的 匹配 串 ， 即 ABCD， 并 输出 相应 的 匹配 信息 。BMDiff 适 合 
压缩 重复 度 很 高 的 速度 ， 例 如 网 页 ，Google 的 Bigtab1le 系 统 中 实现 了 列 人 存储 ， 相 同 
列 的 数据 存放 到 一 起 ， 重 复 度 很 高 。 


2.6.2 列 式 存储 


传统 的 行 式 数据 库 将 一 个 个 完整 的 数据 行 存储 在 数据 页 中 。 如 果 处 理 查询 时 需要 用 
到 大 部 分 的 数据 列 ， 这 种 方式 在 磁盘 I0 上 是 比较 高 效 的 。 一 般 来 说 ，OLTP ( Online 
Transaction Processing， 联 机 事务 处 理 ) 应 用 适合 采用 这 种 方式 。 


一 个 OLAP 类 型 的 查询 可 能 需要 访问 几 百 万 甚至 几 十 亿 个 数据 行 ， 且 该 查询 往往 只 关 
心 少数 几 个 数据 列 。 例 如 ， 查询 今年 销量 最 高 的 前 26 个 商品 ， 这 个 查询 只 关心 三 个 
数据 列 : 时 间 (date) 、 丙 品 (item) 以 及 销售 量 (sales amount ) 。 商 品 的 其 
他 数据 列 ， 例 如 商品 URL、 商 品 描述 、 商 品 所 属 店铺 ， 等 等 ， 对 这 个 查询 都 是 没有 意 


X RS, 


如 图 2-11 所 示 ， 列 式 数 据 库 是 将 同一 个 数据 列 的 各 个 值 存放 在 一 起 。 插 入 某 个 数据 
行 时 ， 该 行 的 各 个 数据 列 的 值 也 会 存放 到 不 同 的 地 方 。 上 例 中 列 式 数 据 库 只 需要 读 
取 存 储 着 “时 间 、 商 品 、 销 量 ” 的 数据 列 ， 而 行 式 数据 库 需 要 读 取 所 有 的 数据 列 。 
因此 ， 列 式 数 据 库 大 大 地 提高 了 OLAP 大 数据 量 查 询 的 效率 。 当 然 ， 列 式 数据 库 不 是 
万 能 的 ， 每 次 读 取 某 个 数据 行 时 ， 需 要 分 别 从 不 同 的 地 万 读 取 各 个 数据 列 的 值 ， 然 
后 合并 在 一 起 形成 数据 行 。 因 此 ， 如 果 每 次 查询 涉及 的 数据 量 较 小 或 者 大 部 分 查询 
都 需要 整 行 的 数据 ， 列 式 数 据 库 并 不 适用 。 


很 多 列 式 数据 库 还 支持 列 组 ( column group,Bigtable 系 统 中 称 为 locality 
group) ， 即 将 多 个 经 常 一 起 访问 的 数据 列 的 各 个 值 存放 在 一 起 。 如 果 读 取 的 数据 列 
属于 相同 的 列 组 ， 列 式 数 据 库 可 以 从 相同 的 地 方 一 次 性 读 取 多 个 数据 列 的 值 ， 避 免 
了 多 个 数据 列 的 合并 。 列 组 是 一 种 行列 混合 存储 模式 ， 这 种 模式 能 够 同时 满足 0LTP 
和 OLAP 的 查询 需求 。 
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2-11 列 式 数据 库 示 意图 


由 于 同一 个 数据 列 的 数据 重复 度 很 高 ， 因 此 ， 列 式 数 据 库 压缩 时 有 很 大 的 优势 。 例 
如 ，Google Bigtable 列 式 数 据 库 对 网 页 库 压 缩 可 以 达到 15 信 以 上 的 压缩 率 。 另 
外 ， 可 以 针对 列 式 存储 做 专门 的 索引 优化 。 比 如 ， 性 别 列 只 有 两 个 

值 ，“ 男 ”和 “ 女 ”， 可 以 对 这 一 列 建立 位 图 索引 : 


如 图 2-12 所 示 ，“ 男 ”对 应 的 位 图 为 199161 ,表示 第 1、4、6 行 什 
^ "Eoi “ 女 ” 对 应 的 位 图 为 911016， 表 示 第 2、3、5 行 信 为 “ 女 ”。 如 果 需 要 
查找 男性 或 者 女性 的 个 数 ， 只 需要 统计 相应 的 位 图 中 1 出 现 的 次 数 即 可 。 另 外 ， 建 立 
位 图 索引 后 e 和 1 的 重复 度 高 ,可 以 采用 专门 的 编码 方式 对 其 进行 压缩 。 
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2-12 位 图 索引 示意 图 


第 3 章 分 布 式 系 统 


水 桶 无 论 有 多 高 ， 其 盛 水 的 高 度 取决 于 其 中 最 短 的 那 块 木板 ， 这 就 是 著名 的 “ 木 桶 
效应 ”。 架 构 设 计 之 初 要 求 我 们 能 够 估算 系统 的 性 能 从 而 权 稀 不同 的 设计 方法 。 本 
章 首 先 介 绍 分 布 式 系 统 相 关 的 基础 概念 和 性 能 估算 方法 。 接 着 ， 介 绍 分 布 式 系统 的 
基础 理论 知识 ， 包 括 数据 分 布 、 复 制 、 一 致 性 、 容 错 等 。 最 后 ， 介 绍 常见 的 分 布 式 
协议 。 


分 布 式 系统 面临 的 第 一 个 问题 就 是 数据 分 布 ， 即 将 数据 均匀 地 分 布 到 多 个 存储 节 

扩 。 另 外 ， 为 了 保证 可 靠 性 和 可 用 性 ， 需 要 将 数据 复制 多 个 副本 ， 这 束 市 来 了 多 个 
副本 之 间 的 数据 一 致 性 问题 。 大 规模 分 布 式 存储 系统 的 重要 目标 束 是 节省 成 本 ， 
而 只 能 采用 性 价 比较 高 的 PC 服务 器 。 这 些 服务 器 性 能 很 好 ， 但 是 故障 率 很 高 ， 要求 
系统 能 够 在 软件 层面 实现 目 动容 错 。 当 存储 节点 出 现 故 障 时 ， 系 统 能 够 自动 检测 出 


分 布 式 系统 中 有 两 个 重要 的 协议 ， 包 括 Paxos 选 举 协议 以 及 两 阶段 提交 协议 。Paxos 
协议 用 于 多 个 节点 之 间 达 成 一 致 ， 往 往 用 于 实现 总 控 节 点 选举 。 两 阶段 提交 协议 用 
于 保证 跨 多 个 节点 操作 的 原子 性 ， 这 些 操作 要 么 全 部 成 功 ， 要 么 全 部 失败 。 理 解 了 


这 两 个 分 布 式 协 议 之 后 ， 学 习 其 他 分 布 式 协 议会 变 得 相当 容易 。 
3.1 基本 概念 


3.1.1 异常 


在 分 布 式 存储 系统 中 ， 往 往 将 一 台 服 务 器 或 者 服务 器 上 运行 的 一 个 进程 称 为 一 个 节 
点 ， 节 点 与 节点 之 间 通过 网 络 互联 。 大 规模 分 布 式 存储 系统 的 一 个 核心 问题 在 于 自 
动容 错 。 然 而 ， 服 务 器 节点 是 不 可 靠 的 ， 网 络 也 是 不 可 靠 的 ， 本 节 介绍 系统 运行 过 


程 中 可 能 会 遇 到 的 各 种 异常 。 
1. 异 常 类 型 
( 1) 服务 器 宕 机 


引 友 服务 器 宕 机 的 原因 可 能 是 内 存 错误 、 服 务 器 停电 等 。 服 务 器 宕 机 可 能 随时 友 
生 ， 当 友 生 宕 机 时 ， 节点 无 法 正常 工作 ， 称 为 “不 可 用 (unavailable). RA 
器 重启 后 ， 节 操 将 失去 所 有 的 内 存 信息 。 因 此 ， 设 计 存 储 系统 时 需要 考虑 如 何 通 过 
读 取 持久 化 介质 ( 如 机 械 硬 盘 ， 固态 硬 盘 ) 中 的 数据 来 恢复 内 存 信息 ， 从 而 恢复 
宕 机 前 的 某 个 一 致 的 状态 。 进 程 运 行 过 程 中 也 可 能 随时 因为 core dump 等 原因 退 
出 ， 和 服务 器 宕 机 一 样 ， 进 程 重启 后 也 需要 恢复 内 存 信息 。 


F 


— 


(2) 网 络 异 音 


引 上 发 网 络 异 音 的 原因 可 能 是 消息 丢失 、 消 息 乱 序 ( 如 采用 UDP 方式 通信 ) 或 者 网 络 包 
数据 错误 。 有 一 种 特殊 的 网 络 异常 称 为 “网 络 分 区 ”“， 即 集群 的 所 有 节点 被 划分 为 
多 个 区 域 ， 每 个 区 域内 部 可 以 正常 通信 ,但 是 区 域 之 间 无 法 通信 。 例 如 ， 某 分 布 式 
系统 部 署 在 两 个 数据 中 心 ， 由 于 网 络 调整 ， 导 致 数据 中 心 之 间 无 法 通信 ，, 但是， 数 


据 中 心 内 部 可 以 正常 通信 。 


设计 容错 系统 的 一 个 基本 原则 是 : 网 络 永远 是 不 可 靠 的 ， 任 何 一 个 消息 只 有 收 到 对 
方 的 回复 后 才 可 以 认为 友 送 成 功 ， 系 统 设 计时 总 是 假设 网 络 将 会 出 现 异 弟 并 采取 相 
应 的 处 理 措施 。 


( 3 ) 磁盘 故障 


磁盘 故障 是 一 种 发 生 概率 很 高 的 异常 。 磁 盘 故 障 分 为 两 种 情况 : 磁盘 损坏 和 磁盘 数 
据 错 误 。 磁 盘 损坏 时 ， 将 会 丢失 仓储 在 上 面 的 数据 ， 因 而 ， 分 布 式 仓储 系统 需要 考 
虑 将 数据 仓储 到 多 人 台 服务 器 ， 即 使 其 中 一 台 服 务 器 磁盘 出 现 故 障 ， 也 能 从 其 他 服务 
器 上 恢复 数据 。 对 于 磁盘 数据 错误 ， 往 往 可 以 采用 校 验 和 ( checksum ) 机 制 来 解 
决 ， 这 样 的 机 制 既 可 以 在 操作 系统 层面 实现 ， 又 可 以 在 上 层 的 分 布 式 存储 系统 层面 
实现 。 


2. "ERJ" 


由 于 网 络 异 常 的 存在 ， 分 布 式 存储 系统 中 请 求 结果 存在 “三 态 ”的 概念 。 在 单机 系 
统 中 ， 只 要 服务 器 没有 发 生 异 常 ， 每 个 图 数 的 执行 结果 是 确定 的 ， 要 么 成 功 ， 要 么 
失败 。 然 而 ， 在 分 布 式 系统 中 ， 如 果 某 个 节点 向 另外 一 个 节点 发 起 RPC (Remote 
Procedure Call) 调用 ， 这 个 RPC 执 行 的 结果 有 三 种 状态 : “成 功 ”、“ 失 

败 ”、“ 超 时” ( 未 各 状态 ) ， 也 称 为 分 布 式 仓储 系统 的 三 态 。 


图 3-1 给 出 了 RPC 执 行 成 功 但 超时 的 例子 。 服 务 器 ( Server ) 收 到 并 成 功 处 理 完 成 客 
户 端 ( Client ) 的 请 求 ， 但 是 由 于 网 络 异常 或 者 服务 器 宕 机 ， 客 户 端 没 有 收 到 服务 
器 端的 回复 。 此 时 ，RPC 的 执行 结果 为 超时 ， 客户 端 不 能 简单 地 认为 服务 器 端 处 理 失 
败 。 


1 a 
LI L] i 

la TON 1 "iie 

1 I = 

I 

1 成 功 处 

: 理 请 求 

a 

a 

I 

[| 





- 
E 
-— 


3-1 RPC 执 行 成 功 但 超时 


一 个 更 加 通俗 的 例子 是 2.4.1 节 介绍 的 ATM 取 款 。ATM 取 款 时 ATM 机 有 时 会 提示 : “无 
法 打印 赁 条 ， 是 否 继续 取款 ? ”。 这 是 因为 ATM 机 需要 和 银行 服务 器 端 通信 ， 二 者 之 
间 的 网 络 可 能 出 现 故 障 ， 此 时 ATM 机 发 往 银行 服务 器 端的 RPC 请 求 如 果 发 生 超时 ， 
ATM 机 无 法 确定 RPC 请 求 成 功 还 是 失败 。 正 常情 况 下 ，ATM 机 会 打印 赁 条， 用 于 后 续 
与 银行 服务 器 端 对 账 。 如 果 无 法 打印 凭 条， 存在 资金 安全 风险 ， 因 此 ，ATM 机 有 一 个 
提示 。 

当 出 现 超 时 状态 时 ， 只 能 通过 不 断 读 取 之 前 操作 的 状态 来 验证 RPC 操 作 是 否 成 功 。 当 
然 ， 设 计 分 布 式 人 存储 系统 时 可 以 将 操作 设计 为 “过 等 ” 的， 也 就 是 说 ， 操 作 执行 一 
次 与 执行 多 次 的 结果 相同 ， 例 如 ， 覆盖 写 就 是 一 种 常见 的 蚌 等 操作 。 如 果 采 用 这 种 
设计 ， 当 出 现 失败 和 超时 时 ， 都 可 以 采用 相同 的 处 理 方式 ， 即 一 直 重 试 直到 | 成 功 。 


3.1.2 一 致 性 


由 于 异常 的 存在 ， 分 布 式 存储 系统 设计 时 往往 会 将 数据 见 余 存储 多 份 ， 每 一 份 称 为 
一 个 副本 ( replica/copy ) 。 这 样 ， 当 某 一 个 节点 出 现 故 障 时 ， 可 以 从 其 他 副本 上 


读 到 数据 。 可 以 这 么 认为 ， 副 本 是 分 布 式 存储 系统 容错 技术 的 唯一 手段 。 由 于 多 个 
副本 的 存在 ， 如何 保证 副本 之 间 的 一 致 性 是 整个 分 布 式 系统 的 理论 核心 。 


可 以 从 两 个 角度 理解 一 致 性 : 第 一 个 角度 是 用 户 ， 或 者 说 是 客户 端 ， 即 客户 端 读 写 
操作 是 否 符合 某 种 特性 ; 第 二 个 角度 是 存储 系统 ， 即 存储 系统 的 多 个 副本 之 间 是 否 
一 致 ， 更 新 的 顺序 是 否 相同 ， 等 等 。 


首先 定义 如 下 场景 ， 这 个 场景 包含 三 个 组 成 部 分 : 


存储 系统 : 存储 系统 可 以 理解 为 一 个 黑 盒 子 ， 它 为 我 们 提供 了 可 用 性 和 持久 性 的 保 
证 。 


e 客 户 端 A : 客户 端 A 主 要 实现 从 存储 系统 write 和 read 操 作 。 


e 客 户 端 8 和 客户 端 C : 客户 端 8B 和 C 是 独立 于 A， 并 且 B 和 C 也 相互 独立 的 ， 它 们 同时 也 
实现 对 存储 系统 的 write 和 read 操 作 。 
从 客户 端的 角度 来 看 ， 一 致 性 包含 如 下 三 种 情况 : 


e 通 一 致 性 : 假如 A 千 写 入 了 一 个 值 到 仓储 系统 ， 人 存储 系统 保证 后 续 A,B ，C 的 读 取 操 
作 都 将 返回 最 新 值 。 当 然 ， 如 果 写 入 操作 “超时 ”， 那 么 成 功 或 者 失败 都 是 可 能 
的 ， 客 户 端 A 不 应 该 做 任何 假设 。 


e 弱 一 致 性 : 假如 A 先 写 入 了 一 个 值 到 和 存储 系统 ， 和 存储 系统 不 能 保证 后 续 A,B，C 的 读 


取 操 作 是 否 能 够 读 取 到 最 新 值 。 


e 最 终 一 致 性 : 最 终 一 致 性 是 弱 一 致 性 的 一 种 特例 。 假 如 A 利 先 写 入 一 个 值 到 人 存储 系 
统 ， 和 存储 系 统 保证 如 果 后 续 没有 写 操 作 更 新 同样 的 值 ，A,B，C 的 读 取 操 作 “ 最 


终 ” 都 会 读 取 到 A 写 入 的 最 新 值 。“ 最 终 ” 一 致 性 有 一 个 “不 一 致 窗口 ”的 概念 ， 它 
特 指 从 A 写 入 值 ， 到 后 续 A,B ，5 读 取 到 最 新 值 的 这 段 时 间 。 “不 一 致 性 窗口 ”的 大 小 
依赖 于 以 下 的 几 个 因素 : 交互 延迟 ， 系 统 的 负载 ， 以 及 复制 协议 要 求 同 步 的 副本 


最 终 一 致 性 描述 比较 粗略 ， 其 他 常见 的 变 体 如 下 : 


e 读 写 ( Read-your-writes ) 一 致 性 : 如 果 客 户 端 A 写 入 了 最 新 的 值 ， 那 么 A 的 后 续 
操作 都 会 读 取 到 最 新 值 。 但 是 其 他 用 户 ( 比如 B 或 者 C ) 可 能 要 过 一 会 才能 看 到 。 


e 会 话 (Session) 一 致 性 : 要 求 客 尸 端 和 人 存储 系统 交互 的 整个 会 话 期 间 保证 读 写 一 
致 性 。 如 果 原 有 会 话 因为 某 种 原因 失效 而 创建 了 新 的 会 话 ， 原 有 会 话 和 新 会 话 乙 间 
的 操作 不 保证 读 写 一 致 性 。 


e 单 调 读 ( Monotonic read) 一 致 性 : 如 果 客 户 端 A 已 经 读 取 了 对 象 的 某 个 值 ， 那 
么 后 续 操作 将 不 会 读 取 到 更 早 的 值 。 


se 单调 写 (Monotonic write) 一 致 性 : 客户 端的 写 操 作 按 顺序 完成 ， 这 就 意味 
着 ,对 于 同一 个 客户 端的 操作 ， 存 储 系统 的 多 个 副本 需要 按照 与 客户 端 相同 的 顺序 
完成 。 


从 存储 系统 的 角度 看 ， 一 致 性 主要 包含 如 下 几 个 方面 : 
e 副 本 一 致 性 : 存储 系统 的 多 个 副本 之 间 的 数据 是 否 一 致 ， 不 一 致 的 时 间 窗 口 等 ; 
e 更 新 顺序 一 致 性 : 存储 系统 的 多 个 副本 之 间 是 否 按 照相 同 的 顺序 执行 更 新 操作 。 


一 般 来 说 ， 和 存储 系 统 可 以 支持 强 一 至 性， 也 可 以 为 了 性 能 考虑 只 支持 最 终 一 致 性 。 


从 客户 端的 角度 看 ， 一 般 要 求人 存储 系统 能 够 广 持 读 写 一 致 性 ， 会 话 一 致 性 ， 单 调 
读 ， 单 调 写 等 特性 ， 人 否则 ， 使 用 比较 麻烦 ， 适 用 的 场景 也 比较 有 限 。 


3.1.3 衡量 指标 
评价 分 布 式 存储 系统 有 一 些 常用 的 指标 ， 下 面 分 别 介绍 。 
(1 ) 性 能 


常见 的 性 能 指标 有 : 系统 的 吞吐 能 力 以 及 系统 的 啊 应 时 间 。 其 中 ， 系 统 的 吞吐 能 

指 系 统 在 某 一 段 时 | 间 可 以 处 理 的 请 求 忆 数 ， 通 常用 每 秒 处 理 的 读 操 作 数 

( QPS ,Query Per Second ) 或 者 写 操 作 数 ( TPS ,Transaction Per Second ) 来 
衡量 ; 系统 的 响应 延迟 ， 所 从 某 个 请 求 友 出 到 接收 到 返回 结果 消耗 的 时 间 ， 通 党 用 
平均 延 时 或 者 99 .9% 以 上 请 求 的 最 大 延 时 来 衡量 。 这 两 个 指标 往往 是 矛盾 的 ， 退 求 高 
吞吐 的 系统 ， 往 往 很 难 做 到 低 延 迟 ; 追求 低 延 迟 的 系统 ， 吞 吐 量 也 会 受到 限制 。 
此 ， 设 计 系 统 时 需要 权衡 这 两 个 指标 。 


(2) 可 用 性 


系统 的 可 用 性 ( availability ) 是 指 系统 在 面 对 各 种 异常 时 可 以 提供 正常 服务 的 能 
力 。 系 统 的 可 用 性 可 以 用 系统 停 服 务 的 时 间 与 正常 服务 的 时 间 的 比例 来 衡量 ， 例 如 
某 系统 的 可 用 性 为 4 个 9 (99.99%) ， 相 当 于 系统 一 年 停 服务 的 时 间 不 能 超过 
365x24x66/16666=52. 56 分 钟 。 系 统 可 用 性 往往 体现 了 系统 的 整体 代码 质量 以 及 


容错 能 力 。 
( 3 ) 一 致 性 


3.1.2 节 六 明了 系统 的 一 致 性 。 一 般 来 况 ， 越 是 强 的 一 致 性 模型 ， 用 户 使 用 起 来 越 简 


单 。 笔 者 认为 ， 如 果 系 统 部 署 在 同一 个 数据 中 心 ， 只 要 系统 设计 合理 ， 在 保证 强 一 
致 性 的 前 提 下 ， 不 会 对 性 能 和 可 用 性 造成 太 大 的 影响 。 后 文中 笔者 在 Al1ibaba 参 与 
开 友 的 0ceanBase 系 统 以 及 Google 的 分 布 式 仓储 系统 都 倾 癌 强 一 致 性 。 


(4) 可 扩展 性 


系统 的 可 扩展 性 ( scalability ) 指 分 布 式 存储 系统 通过 扩展 集群 服务 器 规模 来 提 
高 系统 存储 容量 、 计 算 量 和 性 能 的 能 力 。 随 着 业务 的 发 展 ， 对 底层 存储 系统 的 性 能 
需求 不 断 增 加 ， 比 较 好 的 方式 就 是 通过 自动 增加 服务 器 提高 系统 的 能 力 。 理 想 的 分 
布 式 存 储 系 统 实现 了 “线性 可 扩展 ” ， 也 就 是 说 ， 随 着 集群 规模 的 增加 ， 系统 的 整 
体 性 能 与 服务 器 数量 呈 线 性 天 系 。 


3.2 性 能 分 析 


给 定 一 个 问题 ， 往 往 会 有 多 种 设计 方案 ， 而 万 案 评 估 的 一 个 重要 指标 就 是 性 能 ， 如 
何在 系统 设计 之 初 估算 存储 系统 的 性 能 是 存储 工程 师 的 必 备 技能 。 性 能 分 析 用 来 判 


新 设计 方案 是 否 人 存 在 瓶颈 点 ， 权 衡 多 种 设计 方案 ， 另 外 ， 性 能 分 析 也 可 作为 后 续 性 
能 优化 的 依据 。 性 能 分 析 与 性 能 优化 是 相对 的 ， 系 统 设计 之 初 通过 性 能 分 析 确 定 设 


计 目 标 ， 防 止 出 现 重大 的 设计 失误 ， 等 到 系统 试 运行 后 ， 需 要 通过 性 能 优化 方法 找 
出 系统 中 的 瓶颈 点 并 逐步 消除 ， 使 得 系统 达到 设计 之 初 确定 的 设计 目标 。 

性 能 分 析 的 结果 是 不 精确 的 ， 然 而 ， 至 少 可 以 保证 ， 估 算 的 结果 与 实际 值 不 会 相差 
一 个 数量 级 。 设 计 之 初 首 先 分 析 整 体 架 构 ， 接 着 重点 分 析 可 能 成 为 瓶 须 的 单机 模 
块 。 系 统 中 的 资源 ( CPU、 内存、 磁盘、 网 络 ) 是 有 限 的 ， 性 能 分 析 就 是 需要 找 出 可 
能 出 现 的 资源 瓶颈 。 本 节 通 过 几 个 实例 识 明 性 能 分 析 方 法 。 


1. 生 成 一 张 有 38 张 缩 略 图 ( 假设 图 片 原始 大 小 为 256KB ) 的 页 面 需 要 多 少时 间 ? 


e 方 案 1 : 顺序 操作 ， 每 次 先 从 磁盘 中 读 取 图 片 ， 再 执行 生成 缩 略 图 操作 ， 执 行 时 间 
为 : 30x10ms ( 磁盘 随机 读 取 时 | 间 ) -30x256K/30MB/s ( 假设 缩 略 图 生成 速度 为 


30MB/s ) -560ms 


e 方 案 2 : 并 行 操 作 ， 一 次 性 发 送 36 个 请 求 ， 每 个 请 求 读 取 一 张 图 片 并 生成 缩 略 图 , 
执行 时 间 为 : 16oms+256K/X366MB/s=18ms 


当然 ， 系 统 实 际 运行 的 时 候 可 能 有 缓存 以 及 其 他 因素 的 干扰 ,这些 因素 在 性 能 估算 
阶段 可 以 先 不 考虑 ， 简 单 地 将 估算 结果 乘 以 一 个 系数 即 为 实际 值 。 


2.16GB 的 4 字 节 整数 ， 执 行 一 次 快速 排序 需要 多 少时 间 ? 


Google 的 Jeff Dean 提 出 了 一 种 排序 性 能 分 析 方 法 : 排序 时 间 = 比 较 时 间 ( 分 支 了 预测 
错误 ) + 内 存 访问 时 间 。 快 速 排序 过 程 中 会 友 生 大 量 的 分 支 预 测 错误 ， 所 以 比较 次 数 
73228x1og (228) «233 , 其中， 约 1/2 的 比较 会 友 生 分 支 预测 错误 ， 所 以 比较 时 间 
为 1/2x233x5ns=21s， 另 外 ， 快 速 排序 每 次 分 割 操作 都 需要 扫描 一 遍 内 存 ， 假设 内 
存 顺 序 访问 性 能 为 46B/s， 所 以 内 存 访问 时 | 间 为 28x16GB/46B=7s。 因 此 ， 单 线程 排 


序 1GB 4 字 节 整数 总 时 间 约 为 28s。 
3 .Bigtable 系 统 性 能 分 析 


Bigtable 是 Google 的 分 布 式 表格 系统 ， 它 的 优势 是 可 扩展 性 好 ， 可 随时 增加 或 者 减 
少 集群 中 的 服务 器 ， 但 支持 的 功能 有 限 ， 支 持 的 操作 主要 包括 : 


se 单行 操作 : 基于 主键 的 随机 读 取 ， 插 入 ， 更 新 ， 删除 (CRUD ) 操作 ; 


。 多 行 扫描 : 扫描 一 段 主键 范 围 内 的 数据 。Bigtable 中 每 行 包括 多 个 列 ， 每 一 行 的 
某 一 列 对 应 一 个 数据 单元 ， 每 个 数据 单元 包括 多 个 版 本 ， 可 以 按照 列 名 或 者 版 本 对 


扫 摘 结果 进行 过 滤 。 
假设 某 类 Bigtable 系 统 的 思 体 设计 中 给 出 的 性 能 指标 为 : 


e 系 统 配置 : 同一 个 机 架 下 46 台 服务 器 ( 8 核 ，24GB 内 存 ，16 路 1586868 转 SATA 硬 
盘 ) ; 


e 表 格 : 每 行 数据 1KB，64KB 一 个 数据 块 ， 不 压缩 。 
a) 随机 读 取 ( 缓存 不 命中 ) : 1KB/itemx300item/s-300KB/s 


Bigtable 系 统 中 每 次 随机 读 取 需要 首先 从 GFS 中 读 取 一 个 64KB 的 数据 块 ， 经 过 CPU 
处 理 后 返回 用 户 一 行 数据 ( 大 小 为 1KB ) 。 因 此 ， 性 能 受 限 于 GFs 中 

ChunkServer ( GFS 系 统 中 的 工作 节点 ) 的 磁盘 IOPS 以 及 Bigtable Tablet 
Server ( Bigtable 系 统 中 的 工作 节点 ) 的 网 络 带 宽 。 先 看 底层 的 GFS， 每 台 机 器 拥 
有 16 块 SATA 盘 ， 每 块 SATA 盘 的 IOPSs 约 为 166， 因 此 ， 每 台 机 器 的 IOPS 理 论 值 约 为 
1666， 考 虑 到 负载 均衡 等 因素 ， 将 随机 读 取 的 QPs 设 计 目标 定 为 ?396， 保 留 一 定 的 余 
量 。 另 外 ， 每 台 机 器 每 秒 从 GFs 中 读 取 的 数据 量 为 3986x64KB=19.2MB， 由 于 所 有 的 
服务 器 分 布 在 同一 个 机 架 下 ， 网 络 不 会 成 为 瓶颈 。 


b) 随机 读 取 ( 内 存 表 ) : 1KB/itemx20000items/s-20MB/s 


Bigtable 中 支持 内 存 表 ， 内 存 表 的 数据 全 部 加 载 到 内 存 中 ， 读 取 时 不 需要 读 取 底层 
的 6FSs。 随 机 读 取 内 存 表 的 性 能 受 限 于 CPU 以 及 网 络 ， 内 存 型 服务 的 QPS 一 般 在 1ew , 
由 于 网 络 友 送 小 数据 有 较 多 overhead 且 Bigtable 内 存 操作 有 较 多 的 CPU 开 销 ， 保 守 
估计 每 个 节点 的 QPS 为 268698， 客户 端 和 Tablet Server 之 间 的 网 络 流量 为 


20MB/s, 


c ) 随机 写 / 顺 序 写 : 1KB/itemx80e00item/s-8MB/s 


Bigtable 中 随机 写 和 顺序 写 的 性 能 是 差不多 的 ， 写 入 操作 需要 首先 将 操作 日 志 写 入 
到 GFS， 接 着 修改 本 地 内 存 。 为 了 提高 性 能 ，Bigtable 实 现 了 成 组 提示 技术 ， 即 将 
很 多 写 操作 凑 成 一 批 ( 比如 512KB ~ 2MB ) 一 次 性 提交 到 GFS 中 。Bigtable 每 次 写 一 
份 数据 需要 在 GFS 系 统 中 重复 写 入 3 份 到 16 份 ， 当 写 入 速度 达到 8668 QPS， 即 8MB/s 
后 Tablet ServerBSpoJZ&T p 7JARADU 


d) 扫描 : 1KB/itemx30000item/s-30MB/s 


Bigtab1le 扫 摘 操 作 一 次 性 从 GFs 中 读 取 大 量 的 数据 ( 比如 512KB ~ 2MB ) ，GFS 的 磁 
盘 I0 不 会 成 为 瓶颈 。 另 外 ， 批 量 操作 减少 了 CPU 以 及 网 络 收发 包 的 开销 ， 扫 摘 操 作 的 
瓶颈 在 于 Tablet Server 读 取 底 层 GFSs 的 带宽 ， 估 计 为 38MB/s， 对 应 36666 QPS, 


如 果 集 群 规模 超过 46 台 ， 不 能 保证 所 有 的 服务 器 在 同一 个 机 架 下 ， 系 统 设计 以 及 性 

能 分 析 都 会 有 所 不 同 。 性 能 分 析 可 能 会 很 复杂 ， 因 为 不 同情 况 下 系统 的 瓶 贷 点 不 

同 ， 有 的 时 候 是 网 络 ， 有 的 时 候 是 磁盘 ， 有 的 时 候 甚 至 是 机 房 的 交换 机 或 者 CPU， 另 
外 ， 负 载 均衡 以 及 其 他 因素 的 干扰 也 会 使 得 性 能 更 加 难以 量化 。 只 有 理解 存储 系统 

的 底层 设计 和 实现 ， 并 在 实践 中 不 断 地 练习 ， 性 能 估算 才 会 越 来 越 准 。 


3.3 数据 分 布 


分 布 式 系统 区 别 于 传统 单机 系统 在 于 能 够 将 数据 分 布 到 多 个 节点 ， 并 在 多 个 节操 之 
间 实 现 负 载 均 衡 。 数 据 分 布 的 方式 主要 有 两 种 ， 一 种 是 哈 希 分 布 ， 如 一 致 性 哈 希 ， 
代表 系统 为 Amazon 的 Dynamo 系 统 ; 另外 一 种 方法 是 顺序 分 布 ， 即 每 张 表格 上 的 数据 
按照 主键 整体 有 序 ， 代 表 系 统 为 Google 的 Bigtable 系 统 。Bigtable 将 一 张大 表 根 
据 主 键 切 分 为 有 序 的 沁 围 ， 每 个 有 序 泄 围 是 一 个 子 表 。 


将 数据 分 散 到 多 台 机 器 后 ， 需 要 尽量 保证 多 台 机 器 之 间 的 负载 是 比较 均衡 的 。 稀 量 
机 器 负载 涉及 的 因素 很 多 ， 如 机 器 Load 值 ，CPU， 内存 ， 磁盘 以 及 网 络 等 资源 使 用 
情况 ， 读 写 请 求 数 及 请 求 量 ， 等 等 ， 分 布 式 存储 系统 需要 能 够 自动 识别 负载 高 的 节 
点 ， 当 某 台 机 器 的 负载 较 高 时 ， 将 它 服务 的 部 分 数据 迁移 到 其 他 机 器 ， 实 现 自动 负 
载 均衡 。 


分 布 式 存 储 系统 的 一 个 基本 要 求 束 是 透明 性 ， 包 括 数 据 分 布 透明 性 ， 数据 迁移 透明 
性 ， 数据 复制 透明 性 ， 故 障 处 理 迁 明 性 。 本 节 介 绍 数据 分 布 以 及 数据 迁移 相关 的 基 
础 知识 。 


为 了 保证 分 布 式 存储 系统 的 高 可 靠 和 高 可 用 ， 数 据 在 系统 中 一 般 存储 多 个 副本 。 当 
某 个 副本 所 在 的 存储 节点 出 现 故 障 时 ， 分 布 式 存储 系统 能 够 自动 将 服务 切换 到 其 他 
的 副本 ， 从 而 实现 目 动 容错 。 分 布 式 存储 系统 通过 复制 协议 将 数据 同步 到 多 个 存储 
节点 ， 并 确保 多 个 副本 之 间 的 数据 一 致 性 。 


同一 份 数据 的 多 个 副本 中 往往 有 一 个 副本 为 主 副 本 ( Primary ) ， 其 他 副本 为 备 副 
本 (Backup) ， 由 主 副本 将 数据 复制 到 备份 副本 。 复 制 协议 分 为 两 种 ， 强 同步 复制 
以 及 异步 复制 ， 二 者 的 区 别 在 于 用 户 的 写 请 求 是 否 需要 同步 到 备 副 本 才 可 以 返回 成 
功 。 假 如 备份 副本 不 止 一 个 ， 复 制 协议 还 会 要 求 写 请 求 至 少 需 要 同步 到 几 个 备 副 
本 。 当 主 副本 出 现 故 障 时 ， 分布 式 存储 系统 能 够 将 服务 自动 切换 到 某 个 备 副本 ， 实 
MEJAH. 


一 致 性 和 可 用 性 是 矛盾 的 ， 强 同步 复制 协议 可 以 保证 主 备 副 本 之 间 的 一 致 性 ， 但 是 
当 备 副本 出 现 故障 时 ， 也 可 能 阻塞 存储 系统 的 正常 写 服务 ， 系 统 的 整体 可 用 性 受到 


影响 ; 异步 复制 协议 的 可 用 性 相对 较 好 ， 但 是 一 致 性 得 不 到 保障 ， 主 副本 出 现 故 障 
时 还 有 数据 丢失 的 可 能 。 


本 节 首 先 介绍 常见 的 数据 复制 协议 ， 接 着 讨论 如 何在 一 任性 与 可 用 性 之 间 的 进行 权 


衡 。 
3.4.1 复制 的 概述 


分 布 式 存 储 系统 中 数据 保存 多 个 副本 ， 一 般 来 说 ， 其 中 一 个 副本 为 主 副 本 ， 其 他 副 
本 为 备 副 本 ， 常 见 的 做 法 是 数据 写 入 到 主 副本 ， 由 主 副本 确定 操作 的 顺序 并 复制 到 
其 他 副本 。 


如 图 3-4 所 示 ， 客 户 端 将 写 请 求 友 送 给 主 副本 ， 主 副本 将 写 请 求 复制 到 其 他 备 副 本 , 
常见 的 做 法 是 同步 操作 日 志 ( Commit Log) 。 主 副本 首先 将 操作 日 志 同 步 到 备 副 
本 ， 备 副本 回放 操作 日 志 ， 完 成 后 通知 主 副本 。 接 着 ， 主 副本 修改 本 机 ， 等 到 所 有 
的 操作 都 完成 后 再 通知 客户 端 写成 功 。 图 3-4 中 的 复制 协议 要 求 主 备 同步 成 功 才 可 以 
返回 客户 端 写成 功 ， 这 种 协议 称 为 强 同 步 协议 。 强 同步 协议 提供 了 强 一 致 性 ， 但 

是 ， 如 果 备 副本 出 现 问题 将 阻塞 写 操 作 ， 系 统 可 用 性 较 差 。 


假设 所 有 副本 的 个 数 为 N， 且 N > 2， 即 备 副本 个 数 大 于 1。 那 么 ， 实 现 强 同步 协议 
时 ， 主 副本 可 以 将 操作 日 志 并 发 地 发 给 所 有 备 副 本 并 等 待 回复 ， 只 要 至 少 1 个 备 副 本 
返回 成 功 融 可 以 回复 客户 端 操 作成 功 。 强 同步 的 好 处 在 于 如 果 主 副本 出 现 故 障 ， 至 
少 有 1 个 备 副 本 拥有 完整 的 数据 ， 分 布 式 存 储 系统 可 以 自动 地 将 服务 切换 到 最 新 的 备 
副本 而 不 用 担心 数据 丢失 的 情况 。 





WI: 写 请 求 发 给 主 副 本 RI: 读 请 求 发 送 给 其 中 一 个 副本 


W2: 主 副 本 将 写 请 求 同 步 给 备 副 本 R2. 将 读 取 结 果 返 回 客 户 端 
W3: 备 副本 通知 主 副本 同步 成 功 
W4: 主 副 本 返回 客户 端 写 成 功 


3-4 主 备 复制 协议 


与 强 同步 对 应 的 复制 方式 是 异步 复制 。 在 异步 模式 下 ， 主 副本 不 需要 等 待 备 副本 的 
回应 ， 只 需要 本 地 修改 成 功 就 可 以 告知 客户 端 写 操作 成 功 。 另 外 ， 主 副本 通过 异步 
机 制 ， 比 如 单独 的 复制 线程 将 客户 端 修改 操作 推送 到 其 他 副本 。 异 步 复 制 的 好 处 在 
于 系统 可 用 性 较 好 ， 但 是 一 致 性 较 差 ， 如 果 主 副本 发 生 不 可 恢复 故障 ， 可 能 丢失 最 
后 一 部 分 更 新 操作 。 


强 同 步 复 制 和 异步 复制 都 是 将 主 副 本 的 数据 以 某 种 形式 友 送 到 其 他 副本 ， 这 种 复制 
协议 称 为 基于 主 副 本 的 复制 协议 ( Primary-based protocol). 。 这 种 方法 要 求 在 
任何 时 刻 只 能 有 一 个 副本 为 主 副 本 ， 由 它 来 确定 写 操作 之 间 的 顺序 。 如 果 主 副本 出 
现 故障 ， 需 要 选举 一 个 备 副本 成 为 新 的 主 副本 ， 这 步 操作 称 为 选举 ， 经 典 的 选举 协 


议 为 Paxos 协 议 ，3.7.2 市 将 专门 进行 介绍 。 


主 备 副 本 之 间 的 复制 一 般 通 过 操作 日 志 来 实现 。 操 作 日 志 的 原理 很 简单 : 为 了 利用 


好 磁盘 的 顺序 读 写 特性 ， 将 客户 端的 写 操作 先 顺序 写 入 到 磁盘 中 ， 然 后 应 用 到 内 存 
中 ， 由 于 内 存 是 随机 读 写 设备 ， 可 以 很 容易 通过 各 种 数据 结构 ， 比 如 B+ 树 将 数据 有 
效 地 组 织 起 来 。 当 服务 器 宕 机 重启 时 ， 只 需要 回放 操作 日 志 束 可 以 恢复 内 存 状态 。 
为 了 提高 系统 的 并 发 能 力 ， 系 统 会 积 携 一 定 的 操作 日 志 再 批量 写 入 到 磁盘 中 ， 这 种 
技术 一 般 称 为 成 组 提交 。 


如 果 每 次 服务 器 出 现 故 障 都 需要 回放 所 有 的 操作 日 志 ， 效率 是 无 法 忍受 的 ， 检 查 操 
( checkpoint ) 正 是 为 了 解决 这 个 问题 。 系 统 定期 将 内 存 状态 以 检查 点 文件 的 形式 
dump 到 磁盘 中 ， 并 记录 检查 点 时 刻 对 应 的 操作 日 志 回 放 点 。 检 查 点 文件 成 功 创建 
后 ,回放 点 之 前 的 日 志 可 以 被 垃圾 回收 ， 以 后 如 果 服 务 器 出 现 故 障 ， 只 需要 回放 检 
查 点 之 后 的 操作 日 志 。 


除了 基于 主 副本 的 复制 协议 ， 分 布 式 存储 系统 中 还 可 能 使 用 基于 写 多 个 存储 节点 的 
复制 协议 ( Replicated-write protocol), 。 比 如 Dynamo 系 统 中 的 NWR 复 制 协议 ， 
其 中 ，N 为 副本 数量 ，W 为 写 操作 的 副本 数 ，R 为 读 操 作 的 副本 数 。NWR 协 议 中 多 个 副 
本 不 再 区 分 主 和 备 ， 客 户 端 根据 一 定 的 策略 往 其 中 的 Ww 个 副本 写 入 数据 ， 读 取 其 中 的 
R 个 副本 。 只 要 W+R > N， 可 以 保证 读 到 的 副本 中 至 少 有 一 个 包含 了 最 新 的 更 新 。 然 
而 ， 这 种 协议 的 问题 在 于 不 同 副 本 的 操作 顺序 可 能 不 一 致 ， 从 多 个 副本 读 取 时 可 能 
出 现 冲 突 。 这 种 方式 在 实际 系统 中 比较 少见 ， 不 建议 使 用 。 


3.4.2 一 致 性 与 可 用 性 


来 自 Berkerly 的 Eric Brewer 教 授 提 出 了 一 个 著名 的 CAP 理 论 : 一 致 性 

( Consistency ) ， 可 用 性 ( Availability ) 以 及 分 区 可 容忍 性 ( Tolerance of 
network Partition) 三 者 不 能 同时 满足 。 笔 者 认为 没有 必要 纠结 CAP 理 论 最 初 的 
定义 ， 在 工程 实践 中 ， 可 以 将 C、A、P 三 者 按 如 下 方式 理解 : 


e 一 致 性 : 读 操 作 总 是 能 读 取 到 之 前 完成 的 写 操 作 结果 ， 满 足 这 个 条 件 的 系统 称 为 强 
一 致 系统 ， 这 里 的 “之 前 ”一 般 对 同一 个 客户 端 而 言 ; 


e 可 用 性 : 读 写 操 作 在 单 台 机 器 友 生 故障 的 情况 下 仍然 能 够 正音 执行 ， 而 不 需要 等 街 
发 生 故 障 的 机 器 重启 或 者 其 上 的 服务 迁移 到 其 他 机 器 ; 


e 分 区 可 容忍 性 : 机 器 故障 、 网 络 故 障 、 机 房 停电 等 异常 情况 下 仍然 能 够 满足 一 致 性 
和 可 用 性 。 


分 布 式 仓 储 系统 要 求 能 够 目 动容 错 ， 也 残 是 说 ， 分 区 可 容忍 性 总 是 需要 满足 的 , 
此 ， 一 致 性 和 写 操 作 的 可 用 性 不 能 同时 满足 。 


如 果 采 用 强 同 步 复制 ， 保 证 了 人 存储 系统 的 一 致 性 ， 然 而 ， 当 主 备 副本 之 间 出 现 网络 
或 者 其 他 故障 时 ， 写 操作 将 被 阻 塞 ， 系 统 的 可 用 性 无 法 得 到 满足 。 如 果 采 用 异步 复 
制 ， 保 证 了 人 存储 系统 的 可 用 性 ， 但 是 无 法 做 到 强 一 致 性 。 


存储 系统 设计 时 需要 在 一 致 性 和 可 用 性 之 间 权 衡 ， 在 某 些 场景 下 ， 不 允许 丢失 数 
据 ， 在 另外 一 些 场景 下 ， 极 小 的 概率 丢失 部 分 数据 时 允许 的 ， 可 用 性 更 加 重要 。 例 
如 ，Oracle 数 据 库 的 DataGuard 复 制 组 件 包 含 三 种 模式 : 


e 最 大 保护 模式 (Maximum Protection) : 即 强 同步 复制 模式 ， 写 操作 要 求 主 库 先 
将 操作 日 志 ( 数据 库 的 redo/undo 日 志 ) 同步 到 至 少 一 个 备 库 才 可 以 返回 客户 端 成 
功 。 这 种 模式 保证 即使 主 库 出 现 无 法 恢复 的 故障 ， 比 如 硬盘 损坏 ， 也 不 会 丢失 数 
ja. 


e 最 大 性 能 模式 (Maximum Performance) : 即 异步 复制 模式 ， 写 操作 只 需要 在 主 
库 上 执行 成 功 就 可 以 返回 客户 端 成 功 ， 主 库 上 的 后 台 线 程 会 将 重 做 日 志 通 过 异步 的 


方式 复制 到 备 库 。 这 种 方式 保证 了 性 能 及 可 用 性 ， 但 是 可 能 丢失 数据 。 


e 最 大 可 用 性 模式 (Maximum Availability ) : 上 述 两 种 模式 的 折 囊 。 正 常情 况 下 
相当 于 最 大 保护 模式 ， 如 果 主 备 之 间 的 网 络 出 现 故 障 ， 切 换 为 最 大 性 能 模式 。 这 种 
模式 在 一 致 性 和 可 用 性 之 间 做 了 一 个 很 好 的 权衡 ， 推 荐 大 家 在 设计 存储 系统 时 使 


随 着 集群 规模 变 得 越 来 越 大 ， 故 障 友 生 的 概率 也 越 来 越 大 ， 大 规模 集群 每 天 都 有 故 
障 友 生 。 容 错 是 分 布 式 存储 系统 设计 的 重要 目标 ,只 有 实现 了 上 自动 化 容错 ， 才 能 减 
少 人 工 运 维 成 本 ， 实 现 分 布 式 存储 的 规模 效应 。 

单 台 服务 器 故障 的 概率 是 不 高 的 ， 然 而 ， 只 要 集群 的 规模 足够 大 ， 每 天 都 可 能 有 机 
器 故障 友 生 ， 系 统 需 要 能 够 自动 处 理 。 首 先 ， 分 布 式 存储 系统 需要 能 够 检测 到 机 器 
故障 ， 在 分 布 式 系统 中 ， 故 障 检测 往往 通过 租约 ( Lease) 协议 实现 。 接 着 ， 需要 能 
够 将 服务 复制 或 者 迁移 到 集群 中 的 其 他 正常 服务 的 存储 节操 。 


本 节 首 先 介绍 6oog1le 某 数据 中 心 友 生 的 故障 ， 接 着 讨论 分 布 式 系统 中 的 故障 检测 以 
及 恢复 方法 。 


3.5.1 常见 故障 


来 自 Google 的 Jeff Dean 在 LADIS 2689 报 告 中 介绍 了 Goog1le 某 数据 中 心 第 一 年 运 
行 友 生 的 故障 数据 ， 如 表 3-1 所 示 。 


cad Sode T E 年 运行 故障 





0.5 数据 中 心 过 热 
l 配 电 装置 (PDU ) 故障 
l BLAR Ji t 

1 网 络 重 新 布线 
20 机 架 故 障 

5 BLA ERE 
12 IUE EJA 

3 fit E i dC D 
Jt DNS 故障 
1000 单机 夏 障 

JLF fai x c p 





影响 范围 
5 分钟 之 内 大 部 分 机 带 断 电 ， 一 到 两 天 恢复 
大 约 500 到 1000 A HLA BEH F, 6 小 时 恢复 
大 量 告警 . 500-1000 £i BLasIBrHL, 6 小 时 恢复 
大 约 59s 机 融 下 线 超 过 两 天 
40 到 80 A ELARRE FR, 
40 到 80 AHLIE 50% X; tu 
DNS 和 对 外 虚 IP 服务 失效 约 几 分 钟 


1 到 6 小 时 恢复 


影响 范 
宕 要 立即 切换 流量 ,持续 约 1 小 时 
持续 约 30 种 
机 带 无 法 提供 服 
硬盘 数据 丢失 


从 表 3-1 可 以 看 出 ， 单 机 故障 和 磁盘 故障 发 生 概率 最 高 ， 几 乎 每 天 都 有 多 起 事故 ， 系 


统 设计 首先 需要 对 单 台 服务 器 故障 


分 布 在 同一 个 机 架 内 。 最 后 ， 
数据 中 心 之 间 网 路 连接 不 稳定 ， 等 等 。 


3.5.2 故障 检测 


容错 处 理 的 第 一 步 


进行 容错 处 理 。 一 般 来 说 ， 分 布 式 存储 系统 会 保 
存 多 份 数 据 ， 当 其 中 一 份 数 据 所 在 服务 器 发 生 故 障 时 ， 能 通 
务 。 另 外 ， 机 架 故 障 友 生 的 概率 相对 也 是 比较 高 的 ， 


通过 其 他 副本 继续 提供 服 
需要 避免 将 数据 的 所 有 副本 都 


能 出 现 磁盘 响应 慢 ， 内 存 错 误 ， 机 器 配置 错误 ， 


是 故障 检测 ， 心 跳 是 一 种 很 目 然 的 想法 。 假 设 总 控 机 A 需 要 确认 工 


作 机 8 是否 友 生 故障 ， 那 么 总 控 机 A 每 隅 一 段 时 间 ， 比 如 1 秒 ， 向 工作 机 B 友 送 一 个 心 


跳 包 。 如 果 一 切 正常 ， 机 器 B 将 响应 机 器 A 的 心跳 包 ; 


否则 ， 机 器 A 重 试 一 定 次 数 后 认 


为 机 器 B 友 生 了 故障 。 然 而 ， 机 器 A 收 不 到 机 器 B 的 心跳 并 不 能 确保 机 器 B 友 生 故 障 并 


SET BROS 


, 在 系统 运行 过 程 中 ， 可 能 发 生 各 种 错误 ， 比 如 机 器 A 与 机 器 B 之 间 网 络 


友 生 问题 ， 机 器 B 过 于 繁忙 导致 无 法 啊 应 机 器 A 的 心跳 包 。 由 于 机 器 B 友 生 故 障 后 ， 往 
往 需要 将 它 上 面 的 服务 迁移 到 集群 中 的 其 他 服务 器 ， 为 了 保证 强 一 致 性 ， 需 要 确保 
机 器 B 不 再 提供 服务 ， 人 否则 将 出 现 多 人 台 服 务 器 同时 服务 同一 份 数 据 而 导致 数据 不 一 致 
的 情况 。 


里 的 问题 是 机 器 A 和 机 器 B 之 间 需 要 对 “机 器 B 是 否 应 该 被 认为 友 生 故 障 且 停止 服 
”达成 一 致 ，Fisher 指 出 ， 异 步 网 络 中 的 多 台 机 器 无 法 达成 一 致 。 当 然 ， 在 实践 
, 由 于 机 器 之 间 会 进行 时 钟 同步 ， 我 们 总 是 假设 A 和 8B 两 台 机 器 的 本 地 时 钟 相差 不 
, 比如 相差 不 超过 9. 5 秒 。 这 样 ， 我 们 可 以 通过 租约 ( Lease ) 机 制 进行 故障 检 
测 。 租 约 机 制 束 是 这 有 超时 时 间 的 一 种 授权 。 假 设 机 器 A 需要 检测 机 器 Bb 是否 友 生 故 
障 ， 机 器 A 可 以 给 机 器 B 友 放 租 约 ， 机 器 B 持 有 的 租约 在 有 效 期 内 才 人 允许 提供 服务 ， 否 
则 主动 停止 服务 。 机 器 B 的 租约 快要 到 期 的 时 候 向 机 器 A 重新 申请 租约 。 正 常情 况 
下 ， 机 器 B 通 过 不 断 申请 租约 来 延长 有 效 期 ， 当 机 器 B 出 现 故 障 或 者 与 机 器 A 之 间 的 网 
络 友 生 故 障 时 ， 机 器 B 的 租约 将 过 期 ， 从 而 机 器 A 能 够 确保 机 器 8B 不 再 提 供 服 务 ， 机 器 
B 的 服务 可 以 被 安全 地 迁移 到 其 他 服务 器 。 


这 
务 
中 
大 


需要 注意 的 是 ， 实 现 租约 机 制 时 需要 考虑 一 个 提前 量 。 假 设 机 器 B 的 租约 有 效 期 为 16 
秒 ， 那 么 机 器 A 需要 加 上 一 个 提前 量 ， 比 如 11 秒 时 ， 才 可 以 认为 机 器 B 的 租约 过 期 。 
这 样 ， 即 使 机 器 A 和 机 器 B 的 时 钟 不 一 致 ， 只 要 相差 不 会 太 大 ， 都 可 以 保证 机 器 B 的 租 
约 到 期 并 且 已 经 不 再 提供 服务 。 


3.5.3 故障 恢复 


当 总 控 机 检测 到 工作 机 发 生 故 障 时 ， 需 要 将 服务 迁移 到 其 他 工作 机 节点 。 常 见 的 分 
布 式 存储 系统 分 为 两 种 结构 : 单 层 结构 和 双 层 结构 。 大 部 分 系统 为 单 层 结构 ， 在 系 
统 中 对 每 个 数据 分 片 维护 多 个 副本 ;只 有 类 Bigtable 系 统 为 双 层 结构 ， 将 存储 和 服 


务 分 为 两 层 ， 和 存储 层 对 每 个 数据 分 片 维护 多 个 副本 ， 服 务 层 只 有 一 个 副本 提供 服 
务 。 单 层 结 构 和 双 层 结构 的 故障 恢复 机 制 有 所 不 同 。 

单 层 结 构 的 分 布 式 存 储 系统 维护 了 多 个 副本 ， 例 如 副本 个 数 为 3， 主 备 副 本 之 间 通 过 
操作 日 志 同 步 。 如 图 3-5 所 示 ， 某 单 层 结 构 的 分 布 式 存储 系统 有 3 个 数据 分 片 A、B、 

C ,每 个 数据 分 片 存储 了 三 个 副本 。 其 中 ，A1 ，B1，C1 为 主 副本 ， 分 别 存储 在 节点 
1, 节点 2 以 及 节操 3。 假 设 节 后 1 友 生 故障 ， 将 被 忆 控 节操 检测 到 ， 忌 控 节 后 选择 一 
个 最 新 的 副本 ， 比 如 A2 或 者 A3 蔡 换 A1 成 为 新 的 主 副本 并 提供 写 服 务 。 节 点 下 线 分 为 
两 种 情况 : 一 种 是 临时 故障 ， 节点 过 一 段 时 间 将 重新 上 线 ; 另 一 种 情况 是 是 永久 性 
故障 ， 比 如 硬盘 损坏 。 岂 控 节 点 一 般 需 要 等 待 一 段 时 | 间 ， 比 如 1 个 小 时 ， 如 果 之 前 下 
线 的 节操 重新 上 线 ， 可 以 认为 是 临时 性 故障 ， 否 则 ， 认 为 是 永久 性 故障 。 如 果 友 生 
永久 性 故障 ， 需 要 执行 增加 副本 操作 ， 即 选择 某 个 节点 拷贝 A 的 数据 ， 成 为 A 的 备 副 
本 。 


两 层 结构 的 分 布 式 存储 系统 会 将 所 有 的 数据 持久 化 写 入 底层 的 分 布 式 文件 系统 ， 
个 数据 分 片 同一 时 刻 只 有 一 个 提供 服务 的 节点 。 如 图 3-5 所 示 ， 某 双 层 结构 的 分 布 式 
存储 系统 有 3 个 数据 分 片 ，A、B 和 C。 它 们 分 别 被 节点 1， 节点 2 和 节点 3 所 服务 。 当 
节点 1 发 生 故 障 时 ， 总 控 节 点 将 选择 一 个 工作 节点 ， 比 如 节点 2， 加 载 A 的 服务 。 由 于 
A 的 所 有 数据 都 存储 在 共享 的 分 布 式 文件 系统 中 ， 节 点 2 只 需要 从 底层 分 布 式 文件 系 
统 读 取 A 的 数据 并 加 载 到 内 存 中 。 


节操 故障 会 影响 系统 服务 ， 在 故障 检测 以 及 故障 恢复 的 过 程 中 ， 不 能 提供 写 服 务 及 
强 一 致 性 读 服务 。 停 服务 时 间 包含 两 个 部 分 ， 故 障 检测 时 间 以 及 故障 恢复 时 间 。 故 
障 检 测 时 间 一 般 在 几 秒 到 十 几 秒 ， 和 集群 规模 密切 相关 ， 集 群 规模 越 大 ， 故 障 检 测 
对 忆 控 节点 造成 的 压力 丈 越 大 ， 故 障 检测 时 间 残 越 长 。 故 障 恢 复 时 间 一 般 很 短 ， 单 


层 结构 的 备 副 本 和 主 副本 之 间 保 持 实 时 同步 ， 切 换 为 主 副本 的 时 间 很 短 ; 两 层 结构 
故障 恢复 往往 实现 成 只 需要 将 数据 的 索引 ， 而 不 是 折 有 的 数据 ， 加 载 到 内 人 存 中 。 
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单 层 结构 


3-5 改 障 恢复 


总 控 节 点 自身 也 可 能 出 现 故 障 ， 为 了 实现 总 控 节 点 的 高 可 用 性 (High 
Availability )， 总 控 节 点 的 状态 也 将 实时 同步 到 备 机 ， 当 故障 发 生 时 ， 可 以 通过 
外 部 服务 选举 某 个 备 机 作为 新 的 总 控 世 点， 而 这 个 外 部 服务 也 必须 是 高 可 用 的 。 为 
进行 选 主 或 者 维护 系统 中 重要 的 全 局 信息 ， 可 以 维护 一 套 通 过 Paxos 协 议 实 现 的 分 
布 式 锁 服 务 ， 比 如 Google Chubby 或 者 它 的 开源 实现 Apache Zookeeper, 


3.6 可 扩展 性 


通过 数据 分 布 ， 复制 以 及 容错 等 机 制 ， 能 够 将 分 布 式 存储 系统 部 署 到 成 干 上 万 台 服 
务 器 。 可 扩展 性 的 实现 手段 很 多 ， 如 通过 增加 副本 个 数 或 者 缓存 提高 读 取 能 力 ， 将 
数据 分 片 使 得 每 个 分 片 可 以 被 分 配 到 不 同 的 工作 节操 以 实现 分 布 式 处 理 ， 把 数据 复 
制 到 多 个 数据 中 心 ， 等 等 。 


分 布 式 存 储 系统 大 多 都 市 有 忆 控 节点 ， 很 多 人 会 自然 地 联想 到 筷 控 节 后 的 洽 人 颈 问 
题 ， 认 为 P2P 架 构 更 有 优势 。 然 而 ， 事 实 却 并 非 如 此 ， 主 流 的 分 布 式 存 储 系统 大 多 珊 
有 忌 控 节操 ， 且 能 够 支持 成 干 上 万 台 的 集群 规模 。 


另外 ， 传 统 的 数据 库 也 能 够 通过 分 库 分 表 等 方式 对 系统 进行 水 平 扩展 ， 当 系统 处 理 
能 力 不 足 时 ， 可 以 通过 增加 存储 节点 来 扩容 。 


那么 ， 如 何 衡量 分 布 式 存储 系统 的 可 扩展 性 ， 它 与 传统 数据 库 的 可 扩展 性 义 有 什么 
区 别 ? 可 扩展 性 不 能 简单 地 通过 系统 是 否 为 P2P 架 构 或 者 是 否 能 够 将 数据 分 布 到 多 个 
存储 节 扣 来 衡量 ， 而 应 该 综合 考虑 节点 故障 后 的 恢复 时 间 ， 扩容 的 目 动 化 程度 ， 扩 


容 的 灵活 性 等 。 


本 节 首 先 讨 论 总 控 节 点 是 否 会 成 为 性 能 瓶颈 ， 接 着 介绍 传统 数据 库 的 可 扩展 性 ， 最 
后 讨论 同 构 系 统 与 异 构 系 统 增加 节点 时 的 差别 。 


3.6.1 AMETE 
分 布 式 存 储 系统 中 往往 有 一 个 思 控 节点 用 于 维护 数据 分 布 信息 ， 执行 工作 机 管理 , 
数据 定位 ， 故 障 检测 和 恢复 ， 负 载 均衡 等 全 局 调度 工作 。 通 过 引入 忆 控 节点， 可 以 


使 得 系统 的 设计 更 加 人 简单， 并 且 更 加 容易 做 到 强 一 致 性 ， 对 用 己 友 好 。 那 么 ， 忆 控 
节操 是 否 会 成 为 性 能 瓶颈 呢 ? 


分 为 两 种 情况 : 分 布 式 文 件 系统 的 总 控 节 点 除了 执行 全 局 调度 ， 还 需要 维护 文件 系 
统 目录 树 ， 内 存 容量 可 能 会 率先 成 为 性 能 瓶颈 ; 而 其 他 分 布 式 存 储 系统 的 总 控 节 点 
只 需要 维护 数据 分 片 的 位 置信 息 ， 一 般 不 会 成 为 浇 贷 。 另 外 ， 即 使 是 分 布 式 文件 系 
统 ， 只 要 设计 合理 ， 也 能 够 扩展 到 几 干 台 服 务 器 。 例 如 ，Google 的 分 布 式 文件 系统 
能 够 扩展 到 8686 台 以 上 的 集群 ， 开 源 的 Hadoop 也 能 够 扩展 到 3686 台 以 上 的 集群 。 当 
然 ， 设 计时 需要 减少 总 控 节 点 的 负载 ， 比 如 Goog1le 的 G6FS 舍 弃 了 对 小 文件 的 支持 ， 
并 且 把 对 数据 的 读 写 控制 权 下 放 到 工作 机 Chunkserver， 通 过 客户 端 缓存 元 数据 减 


少 对 忌 控 节点 的 访问 等 。 


IER ASSETS ERRKZSRADA , 例如 需要 支持 超过 一 万 台 的 集群 规模 ， 或 者 需要 支持 海量 
的 小 文件 ， 那 么 ， 可 以 采用 两 级 结构 ， 如 图 3- 6 所 示 。 在 总 控 机 与 工作 机 之 间 增 加 一 
层 元 数据 节点 ， 每 个 元 数据 节点 只 维护 一 部 分 而 不 是 整个 分 布 式 文件 系统 的 元 数 
据 。 这 样 ， 总 控 机 也 只 需要 维护 元 数据 节点 的 元 数据 ， 不 可 能 成 为 性 能 浇 贷 。 假 设 
分 布 式 文件 系统 (Distributed File System,DFS ) 中 有 166 个 元 数据 节点 ， 每 个 
元 数据 节点 服务 1 亿 个 文件 ， 系 统 总 共 可 以 服务 166 人 2 个 文件 。 图 3-6 中 的 DFS 客 户 端 
定位 DFS 工 作 机 时 ， 需 要 首先 访问 DFS 总 控 机 找到 DFSs 元 数据 服务 器 ， 再 通过 元 数据 
服务 器 找到 DFS 工 作 机 。 昌 然 看 似 增 加 了 一 次 网 络 请 求 ， 但 是 客户 端 总 是 能 够 缓存 
DFS 总 控 机 上 的 元 数据 ， 因 此 并 不 会 市 来 额外 的 开销 。 





3-6 两 级 元 数据 架构 
3.6.2 数据 库 扩 容 


数据 库 可 扩展 性 实现 的 手段 包括 : 通过 主 从 复制 提高 系统 的 读 取 能 力 ， 通 过 垂直 拆 
分 和 水 平 拆 分 将 数据 分 布 到 多 个 存储 节点 ， 通 过 主 从 复制 将 系统 扩展 到 多 个 数据 中 
心 。 当 主 节 点 出 现 故 障 时 ， 可 以 将 服务 切换 到 从 节点 ; 另外 ， 当 数据 库 整 体 服务 能 
力 不 足 时 ， 可 以 根据 业务 的 特点 重新 拆 分 数据 进行 扩容 。 


如 图 3-7 所 示 ， 假 设 数据 库 中 有 三 张 表格 tablel1、table2 以 及 table3， 先 按照 业务 
将 三 张 表 垂 直 拆 分 到 不 同 的 DB 中 ， 再 将 每 张 表 通 过 哈 希 的 方式 水 平 拆 分 到 不 同 的 存 
储 节点 。 每 个 拆 分 后 的 DB 通过 主 从 复制 维护 多 个 副本 ， 且 允许 分 布 到 多 个 数据 中 
心 。 如 果 系 统 的 读 取 能 力 不 足 ， 可 以 通过 增加 副本 的 方式 解决 ， 如 果 系 统 的 写 入 能 
力 不 足 ， 可 以 根据 业务 的 特点 重新 拆 分 数据 ， 常 见 的 做 法 为 双 倍 扩容 ， 即 将 每 个 分 
片 的 数据 拆 分 为 两 个 分 片 ， 扩 容 的 过 程 中 需要 迁移 一 半 的 数据 到 新 加 入 的 存储 节 
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3-7 数据 库 拆 分 示意 图 
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传统 的 数据 库 架 构 在 可 扩展 性 上 面临 如 下 间 题 : 


e 扩 容 不 够 灵活 。 传 统 数据 库 以 构 一 般 采 用 双 倍 扩容 的 做 法 ， 很 难 做 到 按 需 扩容 。 假 


设 系统 中 已 经 有 16 个 存储 节点 ， 如 果 希 望 将 系统 的 服务 能 力 提高 5% ,只 需要 新 增 1 个 
而 不 是 16 个 存储 节点 . 


eil 容 不 够 自动 化 。 传 统 数据 库 架 构 扩 容 时 需要 迁移 大 量 的 数据 ， 整 个 过 程 时 间 较 
长 ， 容 易 友 生 有 寞 贡 情 况 ， 且 数据 划分 的 规则 往往 和 业务 相关 ， 很 难 做 到 目 动 化 。 


se 增 加 副本 时 间 长 。 如 果 某 个 主 节 点 出 现 永 久 性 故障 ， 比 如 硬盘 故障 ， 需 要 增加 一 个 
副本 ， 整 个 过 程 需要 拷贝 大 量 的 数据 ， 耗费 的 时 间 很 长 。 


3.7 分 布 式 协 议 


分 布 式 系统 涉及 的 协议 很 多 ， 例 如 租约 ， 复 制 协议 ， 一 致 性 协议 ， 其 中 以 两 阶段 提 


交 协 议和 Paxos 协 议 最 具有 代表 性 。 两 阶段 提交 协议 用 于 保证 跨 多 个 节点 操作 的 原子 
性 ,也 丈 是 说 ， 跨 多 个 节点 的 操作 要 么 在 所 有 节点 上 全 部 执行 成 功 ， 要 么 全 部 失 
败 。Paxos 协 议 用 于 确保 多 个 节点 对 某 个 投票 ( 例如 哪个 节点 为 主 节 点 ) 达成 一 致 。 


本 节 介 绍 这 两 个 分 布 式 协议 。 
3.7.1 两 阶段 提交 协议 


两 阶段 提交 协议 ( Two-phase Commit , 2PC ) 经 常用 来 实现 分 布 式 事务 ， 在 两 阶段 
协议 中 ， 系 统一 般 包 合 两 类 书 点 : 一 类 为 协调 者 ( coordinator) ， 通 单一 个 系统 
中 只 有 一 个 ; 另 一 类 为 事务 参与 者 ( participants,cohorts 或 workers ) ， 一 般 
包含 多 个 。 协 议 中 假设 每 个 书 点 都 会 记录 操作 日 志 并 持久 化 到 非 易 失 性 存储 介质 ， 
即使 节点 友 生 故障 日 志 也 不 会 丢失 。 顾 名 思 义 ， 两 阶段 提交 协议 由 两 个 阶段 组 成 。 
在 正常 的 执行 过 程 中 ， 这 两 个 阶段 的 执行 过 程 如 下 所 述 : 


e 阶 段 1 : 请 求 阶段 (Prepare Phase ) 。 在 请 求 阶段 ,协调 者 通知 事务 参与 者 准备 
提交 或 者 取消 事务 ， 然 后 进入 表决 过 程 。 在 表决 过 程 中 ， 参 与 者 将 告知 协调 者 自己 
的 决策 : 同意 ( 事务 参与 者 本 地 执行 成 功 ) 或 者 取消 ( 事务 参与 者 本 地 执行 失 
Wr). 


e 阶 段 2 : 提交 阶段 ( Commit Phase). 。 在 提交 阶段 ， 协 调 者 将 基于 第 一 个 阶段 的 投 
票 结果 进行 决策 : 提交 或 者 取消 。 当 且 仅 当 所 有 的 参与 者 同意 提交 事务 协调 者 才 通 
知 所 有 的 参与 者 提交 事务 ， 否 则 协调 者 通知 所 有 的 参与 者 取消 事务 。 参 与 者 在 接收 
到 协调 者 发 来 的 消息 后 将 执行 相应 的 操作 。 


例如 ，A 组 织 B、c 和 pD 三 个 人 去 爬 长 城 : 如 果 所 有 人 都 同意 去 爬 长 城 ， 那 么 活动 将 举 
íT; 如 果 有 一 人 不 同意 去 乳 长 城 ， 那 么 活动 将 取消 。 用 2PC 算 法 解决 该 问题 的 过 程 如 


F: 
1) HAASE , B, CDRA. 


2 ) 准备 阶段 : ARBIMAEESB. CHD , ted FAZAL, DESEAR. BARR 

要 等 竺 8、C 和 和 |D 的 回复 。B、C 和 0p 分 别 查 看 自己 的 日 程 安排 表 。B、C 发 现 自己 在 当日 

没有 活动 安排 ， 则 友 邮 件 告 诉 A 他们 同意 下 周三 去 把 长 城 。 由 于 某 种 原因 ，D 日 天 没 

有 查看 邮件 。 那 么 此 时 A、B 和 (C 均 需要 等 待 。 到 晚上 的 时 候 ，D 友 现 了 A 的 邮件 ， 然 后 
查看 日 程 安排 ， 友 现下 周三 当天 已 经 有 别 的 安排 ， 那么 D 回 复 A 说 活动 取消 吧 。 


3 ) 此 时 A 收 到 了 所 有 活动 参与 者 的 邮件 ， 并 且 A 友 现 D 下 周三 不 能 去 乳山 。 那 么 A 将 友 
邮件 通知 B、Cc 和 D， 下 周三 爬 长 城 活动 取消 。 此 时 B、5C 回 复 A“ 太 可 惜 了 ”“，D 回 复 
A“ 不 好 意思 ”。 至 此 该 事务 终止 。 


通过 该 例子 可 以 友 现 ，2PC 协 议 存在 明显 的 问题 。 假 如 D 一 直 不 能 回复 邮件 ， 那 么 A、 
B 和 C 将 不 得 不 处 于 一 直 等 待 的 状态 。 并 且 B 和 Cc 所 持 有 的 资源 一 直 不 能 释放 ， 即 下 周 
三 不 能 安排 其 他 活动 。 当 然 ，A 可 以 友 邮 件 告诉 D5 如 果 晚 上 六 点 之 前 不 回复 活动 束 目 
动 取消 ， 通 过 引入 事务 的 超时 机 制 防止 资源 一 直 不 能 释放 的 情况 。 更 为 严重 的 是 ， 
假如 A 友 完 邮件 后 生病 住院 了 ， 即 使 8、c 和 Dp 都 友 邮 件 告诉 A 同意 下 周三 去 乳 长 城 ， 如 
果 A 没 有 备份 ， 事 务 将 被 阻塞 ，B、5Cc 和 D 下 周三 都 不 能 安排 其 他 活动 。 


两 阶段 提交 协议 可 能 面临 两 种 故障 : 


e 事 务 参与 者 友 生 故 障 。 给 每 个 事务 设置 一 个 超时 时 | 间 ， 如 果 某 个 事务 参与 者 一 和 直 不 
响应 ， 到 达 超 时 时 间 后 整个 事务 失败 。 


e 协 调 者 发 和 故障。 协调 者 需要 将 事务 相关 信息 记录 到 操作 日 志 并 同步 到 备用 协调 


者 ， 假 如 协调 者 发 生 故 障 ， 备 用 协调 者 可 以 接替 它 完成 后 续 的 工作 。 如 果 没 有 备用 
协调 者 ， 协 调 者 又 友 生 了 永久 性 故障 ， 事 务 参与 者 将 无 法 完成 事务 而 一 直 等 待 下 
去 。 


忌 而 言 之 ， 两 阶段 提交 协议 是 阻塞 协议 ， 执 行 过 程 中 需要 锁 住 其 他 更 新 ， 且 不 能 容 
错 ， 大 多 数 分 布 式 存储 系统 都 采用 敬而远之 的 做 法 ， 放 痉 对 分 布 式 事 务 的 支持 。 


3.7.2 Paxos 协 议 


Paxos 协 议 用 于 解决 多 个 节操 之 间 的 一 致 性 问题 。 多 个 节点 之 间 通 过 操作 日 志 同 步 数 
ja, 如 果 只 有 一 个 节点 为 主 节点 ， 那 么 ， 很 容易 确保 多 个 节点 之 间 操 作 日 志 的 一 人 怪 
性 。 考 虑 到 主 节 点 可 能 出 现 故 障 ， 系 统 需要 选举 出 新 的 主 节 点 。Paxos 协 议 正 是 用 来 
实现 这 个 需求 。 只 要 保证 了 多 个 节操 之 间 操 作 日 志 的 一 怪 性 ， 束 能 够 在 这 些 节 点 上 
构建 高 可 用 的 全 局 服务 ， 例 如 分 布 式 锁 服 务 ， 全 局 命名 和 配置 服务 等 。 


为 了 实现 高 可 用 性 ， 主 节点 往往 将 数据 以 操作 日 志 的 形式 同步 到 备 节点 。 如 果 主 节 
点 发 生 故障 ， 备 节点 会 提议 自己 成 为 主 节 点 。 这 里 存在 的 问题 是 网 络 分 区 的 时 候 ， 

可 能 会 存在 多 个 备 节点 提议 ( Proposer， 提 议 者 ) 自己 成 为 主 节 点 。Paxos 协 议 保 
证 ， 即 使 同时 存在 多 个 proposer， 也 能 够 保证 所 有 节点 最 终 达 成 一 致 ， 即 选举 出 唯 


大 多 数 情 况 下 ， 系 统 只 有 一 个 proposer， 他 的 提议 也 总 是 会 很 快 地 被 大 多 数 节 点 接 
受 。Paxos 协 议 执 行 步 又 如 下 : 


1) 批准 ( accept ) : Proposer 发 送 accept 消 息 要求 所 有 其 他 节点 ( acceptor , 
接受 者 ) 接受 某 个 提议 值 ，acceptor 可 以 接受 或 者 拒绝 。 


2) 确认 ( acknowledge) : 如 果 超 过 一 半 的 acceptor 接 受 ， 意 味 着 提议 值 已 经 生 
效 ，proposer 发 送 acknowledge 消 息 通知 所 有 的 acceptor 提 议 生 效 。 


当 出 现 网 络 或 者 其 他 异常 时 ， 系 统 中 可 能 存在 多 个 proposer， 他 们 各 自发 起 不 同 的 
提议 。 这 里 的 提议 可 以 是 一 个 修改 操作 ， 也 可 以 是 提议 自己 成 为 主 节 点 。 如 果 
proposer 第 一 次 友 起 的 accept 请 求 没有 被 acceptor 中 的 多 数 派 批准 ( 例如 与 其 他 
proposer 的 提议 冲突 ) ， 那 么 ， 需 要 完整 地 执行 一 轮 Paxos 协 议 。 过 程 如 下 : 


1 ) 准备 (prepare) : Proposer 首 先 选择 一 个 提议 序号 n 给 其 他 的 acceptor 节 点 发 
送 prepare 消 息 。Acceptor 收 到 prepare 消 息 后 ， 如 果 提 议 的 序号 大 于 他 已 经 回复 
的 所 有 prepare 消 息 ， 则 acceptor 将 自己 上 次 接受 的 提议 回复 给 proposer， 并 承诺 
不 再 回复 小 于 n 的 提议 。 


2 ) 批准 ( accept ) : Proposer 收 到 了 acceptor 中 的 多 数 派对 prepare 的 回复 后 ， 
就 进入 批准 阶段 。 如 果 在 之 前 的 prepare 阶 段 acceptor 回 复 了 上 次 接受 的 提议 ， 那 
么 ，proposer 选 择 其 中 序号 最 大 的 提议 值 友 给 acceptor 批 准 ; 否则 ，proposer 生 
成 一 个 新 的 提议 值 友 给 acceptor 批 准 。Acceptor 在 不 违背 他 之 前 在 prepare 阶 段 的 


承诺 的 前 提 下 ， 接 受 这 个 请 求 。 


3 ) 确认 ( acknowledge) : 如 果 超 过 一 半 的 acceptor 接 受 ， 提 议 值 生 效 。 
Proposer 发 送 acknowledge 消 息 通知 所 有 的 acceptor 提 议 生效 。 


Paxos 协 议 需 要 考虑 两 个 问题 : 正确 性 ， 即 只 有 一 个 提议 值 会 生效 ; 可 终止 性 ， 即 最 
后 总 会 有 一 个 提议 值 生效 。Paxos 协 议 中 要 求 每 个 生效 的 提议 被 acceptor 中 的 多 数 
派 接受 ， 并 且 每 个 acceptor 不 会 接受 两 个 不 同 的 提议 ， 因 此 可 以 保证 正确 性 。 
Paxos 协 议 并 不 能 够 严格 保证 可 终止 性 。 但 是 ， 从 Paxos 协 议 的 执行 过 程 可 以 看 出 ， 


只 要 超过 一 个 acceptor 接 受 了 提议 ，proposer 很 快 就 会 友 现 ， 并 重新 提议 其 中 序号 
最 大 的 提议 值 。 因 此 ， 随 着 协议 不 断 运 行 ， 它 会 往 “ 某 个 提议 值 被 多 数 派 接受 并 生 


效 ” 这 一 最 终 目 标 靠 拢 。 
3.7.3 Paxos 与 2PC 


Paxos 协 议和 2PC 协 议 在 分 布 式 系统 中 所 起 的 作用 并 不 相同 。Paxos 协 议 用 于 保证 同 
一 个 数据 分 片 的 多 个 副本 之 间 的 数据 一 致 性 。 当 这 些 副本 分 布 到 不 同 的 数据 中 心 
时 ， 这 个 需求 尤其 强烈 。2PC 协 议 用 于 保证 属于 多 个 数据 分 片上 的 操作 的 原子 性 。 这 
些 数 据 分 片 可 能 分 布 在 不 同 的 服务 器 上 ，2PC 协 议 保 证 多 台 服 务 器 上 的 操作 要 么 全 部 
成 功 ， 要 么 全 部 失败 。 


Paxos 协 议 有 两 种 用 法 : 一 种 用 法 是 用 它 来 实现 全 局 的 锁 服 务 或 者 命名 和 配置 服务 ， 
例如 Google Chubby 以 及 Apache Zookeeper。 另 外 一 种 用 法 是 用 它 来 将 用 户 数据 
复制 到 多 个 数据 中 心 ， 例 如 Google Megastore 以 及 Google Spanner。 


2PC 协 议 最 大 的 缺陷 在 于 无 法 处 理 协 调 者 宕 机 问题 。 如 果 协 调 者 宕 机 ， 那 么 ，2PC 协 
议 中 的 每 个 参与 者 可 能 都 不 知道 事务 应 该 提交 还 是 回 滚 ， 整 个 协议 被 阻塞 ， 执 行 过 
程 中 申请 的 资源 都 无 法 释放 。 因 此 ， 单 见 的 做 法 是 将 2PC 和 Paxos 协 议 结合 起 来 ， 通 
过 2PC 保 证 多 个 数据 分 片上 的 操作 的 原子 性 ， 通 过 Paxos 协 议 实 现 同 一 个 数据 分 片 的 
多 个 副本 之 间 的 一 致 性 。 另 外 ， 通 过 Paxos 协 议 解决 ?PC 协议 中 协调 者 宕 机 问题 。 当 
2PC 协 议 中 的 协调 者 出 现 故障 时 ， 通 过 Paxos 协 议 选 举 出 新 的 协调 者 继续 提供 服务 。 


3.8 跨 机 房 部 署 


在 分 布 式 系统 中 ， 跨 机 房 问题 一 直 都 是 老大 难 问题 。 机 房 之 间 的 网 络 延 时 较 大 ， 且 
不 稳定 。 跨 机 房 问题 主要 包含 两 个 方面 : 数据 同步 以 及 服务 切换 。 跨 机 房 部 署 方 案 


有 三 个 : 集群 整体 切换 、 单 个 集群 跨 机 房 、Paxos 选 主 副 本 。 下 面 分 别 介绍 。 
1 .集群 整体 切换 


集群 整体 切换 是 最 为 常见 的 方案 。 如 图 3-16 所 示 ， 假 设 某 系统 部 署 在 两 个 机 房 : 机 
房 1 和 机 房 2。 两 个 机 房 保 持 独 立 ， 每 个 机 房 部 署 单 独 的 总 控 节 点 ， 且 每 个 思 控 节操 

各 有 一 个 备份 节点 。 当 总 控 节 点 出 现 故 障 时 ， 能 够 自动 将 机 房 内 的 备份 节点 切换 为 

忆 控 节操 继续 提供 服务 。 另 外 ， 两 个 机 房 部 署 了 相同 的 副本 数 ， 例 如 数据 分 片 A 在 机 
房 1 存储 的 副本 为 A11 和 A12， 在 机 房 2 存 储 的 副本 为 A21 和 A22。 人 在 某 个 时 刻 ， 机 房 1 
为 主机 房 ， 机 房 2 为 备 机 房 。 
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机 房 之 间 的 数据 同步 方式 可 能 为 强 同步 或 者 异步 。 如 果 采 用 异步 模式 ， 那 么 ， 备 机 
房 的 数据 总 是 洛 后 于 主机 房 。 当 主机 房 整体 出 现 故 障 时 ， 有 两 种 选择 : 要 么 将 服务 


切换 到 备 机 房 ， 忍 受 数据 丢失 的 风险 ; 要 么 停止 服务 ， 直 到 主机 房 恢复 为 止 。 
此 ， 如 果 数 据 同 步 为 异步 ， 那 么 ， 主 备 机 房 切 换 往 往 是 手工 的 ， 人 允许 用 户 根据 业务 
的 特点 选择 “丢失 数据 ”或 者 “停止 服务 ”。 


如 果 采 用 强 同步 模式 ， 那 么 ， 备 机 房 的 数据 和 主机 房 保 持 一 致 。 当 主机 房 出 现 故 障 
时 ， 除 了 手工 切换 ， 还 可 以 采用 目 动 切换 的 方式 ， 即 通过 分 布 式 锁 服务 检测 主机 房 
的 服务 ， 当 主机 房 出 现 故障 时 ， 自 动 将 备 机 房 切 损 为 主机 房 。 


2 .单个 集群 跨 机 房 


上 一 种 方案 的 所 有 主 副本 只 能 同时 存在 于 一 个 机 房 内 ， 另 二 种 方案 是 将 单个 集群 部 
署 到 多 个 机 房 ， 人 允许 不 同 数 据 分 片 的 主 副 本 位 于 不 同 的 机 房 ， 如 图 3-11 所 示 。 每 个 
数据 分 片 在 机 房 1 和 机 房 2， 总 共 包 含 4 个 副本 ， 其 中 A1、B1、C1 是 主 副 本 ，A1l 和 和 B1 
在 机 房 1 ，C1 在 机 房 2。 整 个 集群 只 有 一 个 总 控 节 点 ， 它 需要 同 机 房 1 和 机 房 2 的 所 有 
工作 节点 保持 通信 。 当 总 控 节 点 出 现 故 障 时 ， 分 布 式 锁 服 务 将 检测 到 ， 并 将 机 房 2 的 
备份 节点 切换 为 总 控 节 点 。 
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如 果 采 用 这 种 部 署 方 式 ， 忌 控 忆 点 在 执行 数据 分 布 时 ， 需 要 考虑 机 房 信 息 ， BME 
说 ， 尽 量 将 同一 个 数据 分 片 的 多 个 副本 分 布 到 多 个 机 房 ， 从 而 防止 单个 机 房 出 现 故 


障 而 影响 正常 服务 。 
3.Paxos 选 主 副 本 


在 前 两 种 方案 中 ， 忌 控 节 点 需要 和 工作 节点 之 间 保 持 租约 ( lease) ， 当 工作 节点 出 
现 故 障 时 ， 目 动 将 它 上 面 服务 的 主 副 本 切换 到 其 他 工作 节点 。 


如 果 采 用 Paxos 协 议 选 主 副本 ， 那 么 ， 每 个 数据 分 片 的 多 个 副本 构成 一 个 Paxos 复 制 
组 。 如 图 3-12 所 示 ，B1、B2、B3、B4 构 成 一 个 复制 组 ， 某 一 时 刻 B1 为 复制 组 的 主 副 
本 ， 当 B1 出 现 故障 时 ， 其 他 副本 将 党 试 切换 为 主 副本 ，Paxos 协 议 保 证 只 有 一 个 副 
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Goog1le 后 续 开 发 的 系统 ,包括 Google Megastore 以 及 Spanner， 都 采用 了 这 种 方 
式 。 它 的 优点 在 于 能 够 降低 对 总 控 节 点 的 依赖 ， 缺 点 在 于 工程 复杂 度 太 高 ， 很 难 在 
线 下 模拟 所 有 的 异常 情况 。 


Paxos 


| 复制 组 
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WEH "ePUBw.COM" 整理 ，ePUBw.COM 提供 最 新 最 全 的 优质 
电子 书 下 载 ! ! ! 


第 4 章 分 布 式 文件 系统 
第 5 章 分 布 式 键 值 系统 
第 6 章 分 布 式 表 格 系统 


第 7 章 分 布 式 数 据 库 


第 4 E 分 布 式 文件 系统 


分 布 式 文件 系统 的 主要 功能 有 两 个 : 一 个 是 存储 文档 、 图 像 、 视 频 之 类 的 Blob 类 型 
数据 ; 另外 一 个 是 作为 分 布 式 表格 系统 的 持久 化 层 。 


分 布 式 文件 系统 中 最 为 著名 的 莫 过 于 Google File System ( GFS )， 它 构建 在 廉价 
的 普通 Pc 服务 器 之 上 ， 支持 自动 容错 。GFS 内 部 将 大 文件 划分 为 大 小 约 为 64MB 的 数 
据 块 ( chunk ) ， 并 通过 主 控 服 务 器 ( Master ) 实现 元 数据 管理 、 副 本 管理 、 上 自动 
负载 均衡 等 操作 。 其 他 文件 系统 ， 例 如 Taobao File System (TFS), Facebook 
Haystack 或 多 或 少 借鉴 了 GFs 的 思路 ， 架 构 上 都 比较 相近 。 


本 章 首先 重点 介绍 6FS 的 内 部 实现 机 制 ， 接 着 介绍 TFS 和 Face book Haystack 的 内 
部 实现 。 最 后 ， 本 章 还 会 简单 介绍 内 容 分 友 网 络 (Content Delivery 
Network, CDN ) 技术 ， 这 种 技术 能 够 将 图 像 、 视 频 之 类 的 数据 缓存 在 离 用 户 “ 最 
近 ” 的 网 络 节点 上 ， 从 而 降低 访问 延 时 ， 节 省 带宽 。 


4.1 Google 文 件 系统 


Google 文 件 系统 ( GFS ) 是 构建 在 廉价 服务 器 之 上 的 大 型 分 布 式 系统 。 它 将 服务 器 


故障 视 为 正音 现象 ， 通 过 软件 的 方式 目 动容 错 ， 企 保证 系统 可 靠 性 和 可 用 性 的 同 
时 ， 大 大 降低 系统 的 成 本 。 


GFS 是 6oog1e 分 布 式 存储 的 基石 ， 其 他 存储 系统 ， 如 Google Bigtable, Google 
Megastore, Google Percolator 均 直接 或 者 间接 地 构建 在 GFS 之 上 。 另 外 ， 
Google 大 规模 批 处 理 系统 MapReduce 也 需要 利用 GFS 作 为 海量 数据 的 输入 输出 。 


4.1.1 系统 架构 


如 图 4-1 所 示 ，GFS 系 统 的 节点 可 分 为 三 种 角色 : GFS Master ( 主 控 服 务 器 ) GFS 
ChunkServer ( CS， 数 据 块 服务 器 ) LAM GFSZE Fm. 


应 用 程序 (文件 名 ，chunk 索引 ) GFS EFFI 5x25 v /foo/bar 


chunk2ef0 





" wong x xl, 
GFS 5€ P! vi 


pai 






一 一 > 数据 消息 


一 一 > 控制 消息 


(chunk 句柄 ， 字 节 范 围 ) 


GFS 数据 块 服务 器 


chunk 数据 -aa ae 
Linux 文件 系统 


4-1 GFS 整 体 架构 


GFS 文 件 被 划分 为 固定 大 小 的 数据 块 ( chunk ) ， 由 主 服务 器 在 创建 时 分 配 一 个 64 位 
全 局 唯一 的 chunk 句 柄 。5cS 以 普通 的 Linux 文 件 的 形式 将 chunk 存 储 在 磁盘 中 。 为 了 
保证 可 靠 性 ，chunk 在 不 同 的 机 器 中 复制 多 份 ， 默 认为 三 份 。 


主 控 服务 器 中 维护 了 系统 的 元 数据 ， 包 括 文件 及 chunk 命 名 空间 、 文 件 到 chunk 之 间 
的 映射 、chunk 位 置信 息 。 它 也 负责 整个 系统 的 全 局 控制 ， 如 chunk 租 约 管理 、 坪 圾 
回收 无 用 chunk、chunk 复 制 等 。 主 控 服 务 器 会 定期 与 CS 通过 心跳 的 方式 交换 信息 。 


客户 端 是 6FS 提 供给 应 用 程序 的 访问 接口 ， 它 是 一 组 专用 接口 ， 不 遵循 P0SIX 规 范 ， 
以 库 文件 的 形式 提供 。 客 户 端 访问 6FS 时 ， 首 先 访问 主 控 服 务 器 节点 ， 获 取 与 之 进行 
交互 的 CS 信息， 然后 直接 访问 这 些 Cs， 完 成 数据 存 取 工作 。 


需要 注意 的 是 ，GFS 中 的 客户 端 不 缓存 文件 数据 ， 只 缓存 主 控 服务 器 中 获取 的 元 数 
据 ， 这 是 由 GFs 的 应 用 特点 决定 的 。GFS 最 主要 的 应 用 有 两 个 : MapReduce 与 
Bigtable。 对 于 MapReduce,GFS 客 户 端 使 用 方式 为 顺序 读 写 ， 没 有 缓存 文件 数据 的 
必要 ; 而 Bigtable 作 为 分 布 式 表 格 系统 ， 内 部 实现 了 一 套 缓 仓 机 制 。 另 外 ， 如 何 维 
护 客 户 痛 缓 仓 与 实际 数据 之 间 的 一 致 性 是 一 个 极其 复杂 的 问题 。 


4.1.2 关键 问题 
1 .租约 机 制 


GFS 数 据 奶 加 以 记录 为 单位 ， 每 个 记录 的 大 小 为 几 十 KB 到 几 MB 不 等 ， 如 果 每 次 记录 
追加 都 需要 请 求 Master， 那 么 Master 显 然 会 成 为 系统 的 性 能 瓶颈 ， 因此，GFS 系 统 
中 通过 租约 ( lease ) 机 制 将 chunk 写 操作 授权 给 Cchunkserver。 拥 有 租约 授权 的 
ChunkSserve 称 为 主 ChunkServer， 其 他 副本 所 在 的 Chunkserver 称 为 备 
Chunkserver。 租 约 授权 针对 单个 chunk， 在 租约 有 效 期 内 ， 对 该 chunk 的 写 操 作 都 
由 主 ChunkServer 负 责 ， 从 而 减轻 Master 的 负载 。 一 般 来 说 ， 租 约 的 有 效 期 比较 
长 ， 比 如 66 秒 ， 只 要 没有 出 现 异常 ， 主 Chunkserver 可 以 不 断 向 Master 请 求 延 长 租 
约 的 有 效 期 直到 整个 chunk 写 满 。 


假设 chunk A 人 在 GFs 中 保存 了 三 个 副本 AL1、A2、A3， 其 中 ，A1 是 主 副 本 。 如 果 副 本 
A2 所 在 ChunkServer 下 线 后 又 重新 上 线 ， 并 且 在 A2 下 线 的 过 程 中 ， 副 本 A1 和 A3 有 更 
新 ， 那么 A2 需 要 被 Master 当 成 垃圾 回收 掉 。GFS 通 过 对 每 个 chunk 维 护 一 个 版 本 号 来 
解决 ， 每 次 给 chunk 进 行 租约 授权 或 者 主 Chunkserver 重 新 延长 租约 有 效 期 时 ， 
Master 会 将 chunk 的 版 本 号 加 1。A2 下 线 的 过 程 中 ， 副 本 A1 和 A3 有 更 新 ， 说 明 主 
ChunkServer 向 Master 重 新 申请 租约 并 增加 了 A1l 和 A3 的 版 本 号 ， 等 到 A2 重 新 上 线 
后 ,Master 能 够 友 现 A2 的 版 本 号 太 低 ， 从 而 将 A2 标 记 为 可 删除 的 chunk,Master 的 
垃圾 回收 任务 会 定时 检查 ， 并 通知 Chunkserver 将 A2 回 收 挥 。 


2 .一 致 性 模型 


GFS 主 要 是 为 了 追加 ( append ) 而 不 是 改写 ( overwrite ) 而 设计 的 。 一 方面 是 因 
为 改写 的 需求 比较 少 ， 或 者 可 以 通过 追加 来 实现 ， 比 如 可 以 只 使 用 GFs 的 追加 功能 构 
建 分 布 式 表 格 系统 Bigtable ; 另 一 方面 是 因为 追加 的 一 致 性 模型 相 比 改写 要 更 加 简 
单 有 效 。 考 虑 chunk A 的 三 个 副本 A1、A2、A3， 有 一 个 改写 操作 修改 了 A1、A2 但 没 
有 修改 A3， 这 样 ， 落 到 副本 A3 的 读 操 作 可 能 读 到 不 正确 的 数据 ; 相应 地 ， 如 果 有 一 
个 追加 操作 往 A1、A2 上 追加 了 一 个 记录 ， 但 是 追加 A3 失 败 ， 那 么 即使 读 操作 落 到 副 
本 A3 也 只 是 读 到 过 期 而 不 是 错误 的 数据 。 


我 们 只 讨论 追加 的 一 致 性 。 如 果 不 友 生 异 常 ， 追 加 成 功 的 记录 人 在 GFS 的 各 个 副本 中 是 
确定 并 且 严 格 一 致 的 ; 但 是 如 果 出 现 了 异常 ， 可 能 出 现 某 些 副 本 追加 成 功 而 某 些 副 
本 没有 成 功 的 情况 ， 失 败 的 副本 可 能 会 出 现 一 些 可 识别 的 填充 ( padding ) 记录 。 
GFS 客 尸 端 妃 加 失败 将 重 试 ， 只 要 返回 用 户 追 加 成 功 ， 说 明 在 所 有 副本 中 都 至 少 追 加 
成 功 了 一 次 。 当 然 ， 可 能 出 现 记 录 在 某 些 副本 中 被 追加 了 多 次 ， 即 重复 记录 ; 也 可 
能 出 现 一 些 可 识别 的 填充 记录 ， 应 用 层 需 要 能 够 处 理 这 些 问题 。 


739 , ErteFSSE RT ER EAEABI, $97 2E man IBIBSIES TG; RUERS , E 
一 个 客户 端 连 续 退 加 成 功 的 多 个 记录 也 可 能 被 打 断 ， 比 如 客户 端 先后 追加 成 功 记 录 
R1 和 R2， 由 于 追加 R1 和 R2 这 两 条 记录 的 过 程 不 是 原子 的 ， 中 途 可 能 被 其 他 客 尸 端 打 
断 ， 那 么 GFS 的 chunk 中 记录 的 R1 和 R2 可 能 不 连续 ， 中 间 夹 杂 着 其 他 客户 端 追加 的 数 
据 。 


GFS 的 这 种 一 致 性 模型 是 追求 性 能 导致 的 ， 这 增加 了 应 用 程序 开发 的 难度 。 对 于 
MapReduce 应 用 ， 由 于 其 批 处 理 特性 ， 可 以 先 将 数据 追加 到 一 个 临时 文件 ， 在 临时 
文件 中 维护 索引 记录 每 个 追加 成 功 的 记录 的 偏 移 ， 等 到 文件 关闭 时 一 次 性 将 临时 文 
件 改 名 为 最 终 文件 。 对 于 上 层 的 Bigtable， 有 两 种 处 理 方式 ， 后 面 将 会 介绍 。 

3 .追加 流程 


追加 流程 是 6FS 系 统 中 最 为 复杂 的 地 方 ， 而 且 ， 高 效 支 持 记 录 追 加 对 基于 GFS 实 现 的 
分 布 式 表 格 系统 Bigtable 是 至 关 重 要 的 。 如 图 4-2 所 示 ， 追 加 流程 大 致 如 下 : 
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4-2 GFS 追 加 流程 


1) 客户 端 向 Master 请 求 chunk 每 个 副本 所 在 的 Chunkserver， 其 中 主 Chunkserver 
持 有 修改 租约 。 如 果 没 有 chunkserver 持 有 租约 ， 说 明 该 chunk 最 近 没有 写 操作 , 
Master 会 发 起 一 个 任务 ， 按 照 一 定 的 策略 将 chunk 的 租约 授权 给 其 中 一 台 


ChunkServer, 


2 ) Master 返 回 客户 端 主 副本 和 备 副 本 所 在 的 Chunkserver 的 位 置信 息 ， 客 户 端 将 
缓存 这 些 信 息 供 以 后 使 用 。 如 果 不 出 现 故障 ， 客 户 端 以 后 读 写 该 chunk 都 不 需要 再 次 


请 求 Master。 


3 ) 客户 端 将 要 追加 的 记录 发 送 到 每 一 个 副本 ， 每 一 个 ChunkServer 会 在 内 部 的 LRU 
结构 中 缓存 这 些 数据 。GFs 中 采用 数据 流 和 控制 流 分 离 的 方法 ， 从 而 能 够 基于 网 络 拓 
扑 结构 更 好 地 调度 数据 流 的 传输 。 


4 ) 当 所 有 副本 都 确认 收 到 了 数据 ， 客户 端 发 起 一 个 写 请 求 控制 命令 给 主 副本 。 由 于 
主 副本 可 能 收 到 多 个 客户 端 对 同一 个 chunk 的 并 发 追加 操作 ， 主 副本 将 确定 这 些 操作 
的 顺序 并 写 入 本 地 。 


5 ) 主 副本 把 写 请 求 提交 给 所 有 的 备 副本 。 每 一 个 备 副 本 会 根据 主 副本 确定 的 顺序 执 
行 写 操作 。 


6 ) 备 副 本 成 功 完成 后 应 答 主 副本 。 


7 ) 主 副本 应 答 客 户 端 ， 如 果 有 副本 发 生 错误 ， 将 出 现 主 副本 写成 功 但 是 某 些 备 副 本 
不 成 功 的 情况 ， 客 户 端 将 重 试 。 


GFS 追 加 流程 有 两 个 特色 : 流水 线 及 分 离 数据 流 与 控制 流 。 流 水 线 操作 用 来 减少 延 
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络 ， 立 即 发 送 数 据 并 不 会 降低 接收 数据 的 速率 。 抛 开 网 络 阻 塞 ， 传 输 B 个 字 节 到 R 个 
副本 的 理想 时 间 是 BLT+RL， 其 中 T 是 网 络 吞吐 量 ，L 是 节点 之 间 的 延 时 。 假 设 采 用 干 
兆 网 络 ，L 通 常 小 于 1ms， 传 输 1MB 数 据 到 多 个 副本 的 时 间 小 于 86ems。 分 离 数据 流 与 
控制 流 主要 是 为 了 优化 数据 传输 ， 每 一 台 机 器 都 是 把 数据 发 送 给 网 络 拓扑 图 上 “最 
近 ” 的 尚未 收 到 数据 的 数据 。 举 个 例子 ， 假 设 有 三 台 ChunkServer : S1、S2 和 S3 ， 
Ss1 与 S3 在 同一 个 机 架 上 ，S2 在 另外 一 个 机 架 上 ， 客 户 端 部 署 在 机 器 S1 上。 如 果 数 据 
先 从 S1 转 发 到 S2， 再 从 S2 转 发 到 S3， 需 要 经 历 两 次 跨 机 架 数 据 传 输 ; 相对 地 ， 按照 
GFS 中 的 策略 ， 数据 先 发 送 到 s1， 接 着 从 s1 转 发 到 s3， 最 后 转发 到 s2， 只 需要 一 次 
跨 机 架 数 据 传输 。 


分 离 数 据 流 与 控制 流 的 前 提 是 每 次 追加 的 数据 都 比较 大 ， 比 如 MapReduce 批 处 理 系 
统 ， 而 且 这 种 分 离 增 加 了 追加 流程 的 复杂 度 。 如 果 采 用 传统 的 主 备 复制 方法 ， 妃 加 
流程 会 在 一 定 程度 上 得 到 简化 ， 如 图 4-3 所 示 : 


1 ) 同 图 4-2 GFS 追 加 流程 : 客户 端 向 Master 请 求 chunk 每 个 副本 所 在 的 


ChunkServer, 


2 ) 同 图 4-2 GFS 追 加 流程 : Master 返 回 客 户 端 主 副 本 和 备 副 本 所 在 Chunkserver 的 


位 置信 息 。 


3 ) Client 将 待 退 加 数据 发 送 到 主 副本 ， 主 副本 可 能 收 到 多 个 客户 端的 并 发 追加 请 
求 ， 需 要 确定 操作 顺序 ， 并 写 入 本 地 。 


4 ) 主 副 本 将 数据 通过 流水 线 的 方式 转发 给 所有 的 备 副本 。 


5 ) 每 个 备 副 本 收 到 待 追加 的 记录 数据 后 写 入 本 地 ， 所 有 副本 都 在 本 地 写成 功 并 且 收 


到 后 一 个 副本 的 应 答 消 息 时 向 前 一 个 副本 回应 ， 比 如 图 4-3 中 备 副本 A 需 要 等 待 备 副 
本 B 应 答 成 功 上 且 本 地 写成 功 后 才 可 以 应 答 主 副本 。 
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4-3 GFS 追 加 流程 ( 数据 流 与 控制 流 合并 ) 


6) 主 副本 应 答 客户 端 。 如 果 客 户 端 在 超时 时 间 之 内 没有 收 到 主 副 本 的 应 答 ， 襄 明 友 
生 了 错误 ， 需 要 重 试 。 


当然 ， 实 际 的 追加 流程 远 远 没有 这 么 简单 。 追 加 的 过 程 中 可 能 出 现 主 副本 租约 过 期 
而 失去 chunk 修 改 操作 的 授权 ， 以 及 主 副本 或 者 备 副 本 所 在 的 Cchunkserver 出 现 故 
障 ， 等 等 。 由 于 篇 幅 有 限 ， 妃 加 流 程 的 异常 处 理 留 作 读者 思考 。 


4 .容错 机 制 
( 1 ) Master 容 错 


Master 容 错 与 传统 方法 类 似 ， 通 过 操作 日 志 加 checkpoint 的 方式 进行 ， 并 且 有 一 台 


FRA "Shadow Master” 的 实时 热 备 。 
Master 上 保 仔 了 三 种 元 数据 信息 : 


e 命 名 空间 (Name Space) ， 也 就 是 整个 文件 系统 的 目录 结构 以 及 chunk 基 本 信 


CD 


e 文 件 到 chunk 之 间 的 映射 ; 
echunk 副 本 的 位 置信 息 ， 每 个 chunk 通 常 有 三 个 副本 。 


GFS Master 的 修改 操作 总 是 先 记 录 操 作 日 志 ， 然 后 修改 内 存 。 当 Master 发 生 故 障 重 
启 时 ， 可 以 通过 磁盘 中 的 操作 日 志 恢复 内 存 数据 结构 。 另 外 ， 为 了 减少 Master 罕 机 
恢复 时 间 ，Master 会 定期 将 内 存 中 的 数据 以 checkpoint 文 件 的 形式 转 储 到 磁盘 中 ， 
从 而 减少 回放 的 日 志 量 。 为 了 进一步 提高 Master 的 可 靠 性 和 可 用 性 ，GFs 中 还 会 执 
行 实时 热 备 ， 所 有 的 元 数据 修改 操作 都 必须 保证 发 送 到 实时 热 备 才 算 成 功 。 远 程 的 
实时 热 备 将 实时 接收 Master 发 送 的 操作 日 志 并 在 内 存 中 回放 这 些 元 数据 操作 。 如 果 
Master 宕 机 ， 还 可 以 秒 级 切换 到 实时 备 机 继续 提供 服务 。 为 了 保证 同一 时 刻 只 有 一 
台 Master, GFS 依 赖 Google 内 部 的 Chubby 服 务 进 行 选 主 操作 。 


Master 需 要 持久 化 前 两 种 元 数据 ， 即 命名 空间 及 文件 到 chunk 之 间 的 映射 ; 对 于 第 
三 种 元 数据 ， 即 chunk 副 本 的 位 置信 息 ，Master 可 以 选择 不 进行 持久 化 ， 这 是 因为 
Chunkserver 维 护 了 这 些 信息 ， 即 使 aster 友 生 故 障 ， 也 可 以 在 重 局 时 通过 
ChunkServer 汇 报 来 获取 。 


( 2) ChunkServer 容 错 


GFS 采 用 复制 多 个 副本 的 方式 实现 Chunkserver 的 容错 ， 每 个 chunk 有 多 个 存储 副 


本 ， 分 别 仓储 在 不 同 的 ChunkServer 上 。 对 于 每 个 chunk， 必 须 将 所 有 的 副本 全 部 写 
入 成 功 ， 才 视 为 成 功 写 入 。 如 果 相 关 的 副本 出 现 丢 失 或 不 可 恢复 的 情况 ，Master 目 
动 将 副本 复制 到 其 他 Chunkserver， 从 而 确保 副本 保持 一 定 的 个 数 。 


另外 ，ChunkServer 会 对 存储 的 数据 维持 校 验 和 。GFS 以 64MB 为 chunk 大 小 来 划分 文 
I , 每 个 chunk 又 以 Block 为 单位 进行 划分 ，Block 大 小 为 64KB， 每 个 Block 对 应 一 
个 32 位 的 校 验 和 。 当 读 取 一 个 chunk 副 本 时 ，ChunkServer 会 将 读 取 的 数据 和 校 验 
和 进行 比较 ， 如 果 不 匹 配 ， 就 会 返回 错误 ， 客 户 端 将 选择 其 他 ChunkServer 上 的 副 
本 。 


4.1.3 Master 设 计 
1.Master 内 存 占用 


Master 维 护 了 系统 中 的 元 数据 ， 包 括 文 件 及 chunk 命 名 空间 、 文 件 到 chunk 之 间 的 映 
射 、chunk 副 本 的 位 置信 息 。 其 中 前 两 种 元 数据 需要 持久 化 到 磁盘 ，chunk 副 本 的 位 
置信 息 不 需要 持久 化 ， 可 以 通过 chunkServer 汇 报 获 取 。 


内 存 是 Master 的 稀有 资源 ， 接 下 来 介绍 如 何 估算 Master 的 内 存 使 用 量 。chunk 的 元 
言 息 包 括 全 局 唯一 的 TD、 版 本 号 、 每 个 副本 所 在 的 ChunkSserver 编 号 、3 引 用 计数 
等 。GFS 系 统 中 每 个 chunk 大 小 为 64MB， 默 认 存 储 3 份 ， 每 个 chunk 的 元 数据 小 于 64 
字 节 。 那 么 1PB 数 据 的 chunk 元 信息 大 小 不 超过 1PBx3/64MBx64=3GB。 另 外 ， 
Master 对 命名 空间 进行 了 压缩 存储 ， 例 如 有 两 个 文件 foo1 和 foo2 都 存放 在 目 

录 /home/very_long_directory_name/ 中 ， 那 么 目录 名 在 内 存 中 只 需要 存放 一 
次 。 压 缩 存储 后 ， 每 个 文件 在 文件 命名 空间 的 元 数据 也 不 超过 64 字 节 ， 由 于 GFS 中 的 
文件 一 般 都 是 大 文件 ， 因 此 ， 文 件 命 名 空间 占用 内 存 不 多 。 这 也 就 说 明了 Master 内 
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GFS 中 副本 的 分 布 策 略 需 要 考虑 多 种 因素 ， 如 网 络 拓 扑 、 机 架 分 布 、 磁 盘 利 用 率 等 。 
为 了 提高 系统 的 可 用 性 ，GFSs 会 避免 将 同一 个 chunk 的 所 有 副本 都 存放 在 同一 个 机 架 
的 情况 。 


系统 中 需要 创建 chunk 副 本 的 情况 有 三 种 : chunk 创 建 、chunk 复 制 ( re- 
replication ) 以 及 负载 均衡 ( rebalancing). 


当 Master 创 建 了 一 个 chunk， 它 会 根据 如 下 因素 来 选择 chunk 副 本 的 初始 位 置 1 ) 
新 副本 所 在 的 ChunkServer 的 磁盘 利用 率 低 于 平均 水 平 ; 2 ) 限制 每 个 Chunk- 
Server "AT" 创建 的 数量 ; 3 ) 每 个 chunk 的 所 有 副本 不 能 在 同一 个 机 架 。 第 二 点 
容易 忽略 但 却 很 重要 ， 因 为 创建 完 chunk 以 后 通常 需要 马上 写 入 数据 ， 如 果 不 限 

制 “ 最 近 ” 创建 的 数量 ， 当 一 台 空 的 Chunkserver 上 线 时 ， 由 于 磁盘 利用 率 低 ， 可 
能 导致 大 量 的 chunk 了 瞬间 迁移 到 这 人 台 机 器 从 而 将 它 压 垮 。 


当 chunk 的 副本 数量 小 于 一 定 的 数量 后 ,Master 会 尝试 重新 复制 一 个 chunk 副 本 。 可 
能 的 原因 包括 chunkSserver 宕 机 或 者 chunkServer 报 告 自己 的 副本 损坏 ， 或 者 
Chunkserver 的 某 个 磁盘 故障 ， 或 者 用 户 动 态 增 加 了 chunk 的 副本 数 ， 等 等 。 每 个 
chunk 复 制 任务 都 有 一 个 优先 级 ， 按 照 优先 级 从 高 到 低 在 Master 排 队 等 待 执行 。 例 
如 ， 只 有 一 个 副本 的 chunk 需 要 优先 复制 。 另 外 ，GFS 会 提高 所 有 阻塞 客户 端 操作 的 
chunk 复 制 任务 的 优先 级 ， 例 如 客户 端正 在 往 一 个 只 有 一 个 副本 的 chunk 扎 加 数据 ， 
如 果 限 制 至 少 需 要 追加 成 功 两 个 副本 ， 那 么 这 个 chunk 复 制 任务 会 阻塞 客户 端 写 操 
作 ， 需要 提高 优先 级 。 


最 后 ，Master 会 定期 扫 摘 当前 副本 的 分 布 情况 ， 如 果皮 现 磁盘 使 用 量 或 者 机 器 负载 
不 均衡 ， 将 执行 重新 负载 均衡 操作 。 


无 论 是 chunk 创 建 ，chunk 重 新 复制 ， 还 是 重新 负载 均衡 ， 这 些 操作 选择 chunk 副 本 
位 置 的 策略 都 是 相同 的 ， 并 且 需 要 限制 重新 复制 和 重新 负载 均衡 任务 的 拷贝 速度 ， 
否则 可 能 影响 系统 正常 的 读 写 服务 。 


3 .垃圾 回收 


GFS 采 用 延迟 删除 的 机 制 ， 也 融 是 襄 ， 当 删除 文件 后 ，GFS 并 不 要 求 立即 归还 可 用 的 
物理 存储 ， 而 是 在 元 数据 中 将 文件 改名 为 一 个 隐藏 的 名 字 ， 并 且 包 含 一 个 删除 时 间 
戳 。Master 定 时 检查 ， 如 果皮 现 文件 删除 超过 一 段 时 间 ( 默认 为 3 天 ， 可 配置 ) ， 
那么 它 会 把 文件 从 内 存 元 数据 中 删除 ， 以 后 ChunkServer 和 Master 的 心跳 消息 中 ， 
每 一 个 ChunkServer 都 将 报告 自己 的 chunk 集 合 ，Master 会 回复 在 Master 元 数据 中 
已 经 不 存在 的 chunk 人 信息， 这 时 ，ChunkServer 会 释放 这 些 chunk 副 本 。 为 了 减轻 系 
统 的 负载 ， 垃 圾 回收 一 般 在 服务 低 峰 期 执行 ， 比 如 每 天 晚上 凌晨 1:866 开 始 。 


另外 ，chunk 副 本 可 能 会 因为 ChunkServer 失 效 期 间 丢 失 了 对 chunk 的 修改 操作 而 导 
致 过 期 。 系 统 对 每 个 chunk 都 维护 了 版 本 号 ， 过 期 的 chunk 可 以 通过 版 本 号 检测 出 
来 。Master 仍 然 通过 正常 的 垃圾 回收 机 制 来 删除 过 期 的 副本 。 


4. 快 照 


快照 ( Snapshot ) 操作 是 对 源 文 件 / 目 录 进 行 一 个 “快照 ”操作 ， 生 成 该 时 刻 源 文 
件 / 目 录 的 一 个 瞬间 状态 存放 于 目标 文件 /目录 中 。GFs 中 使 用 标准 的 写 时 复制 机 制 生 
成 快照 ， 也 就 是 说 ，“ 快 照 ” 只 是 增加 GFs 中 chunk 的 引用 计数 ， 表 示 这 个 chunk 被 
快照 文件 引用 了 ， 等 到 客户 端 修改 这 个 chunk 时 ， 才 需要 在 ChunkServer 中 拷贝 


chunk 的 数据 生成 新 的 chunk， 后 续 的 修改 操作 沙 到 新 生成 的 chunk 上 。 


为 了 对 某 个 文件 做 快照 ， 首先 需要 停止 这 个 文件 的 写 服 务 ， 接 着 增加 这 个 文件 的 所 
有 chunk 的 引用 计数 ， 以 后 修改 这 些 chunk 时 会 拷贝 生成 新 的 chunk。 对 某 个 文件 执 
行 快照 的 大 致 步骤 如 下 : 


1 ) 通过 租约 机 制 收回 对 文件 的 每 个 chunk 写 权限 ， 停 止 对 文件 的 写 服务 ; 
2 ) Master 拷 贝 文件 名 等 元 数据 生成 一 个 新 的 快照 文件 ; 
3 ) 对 执行 快照 的 文件 的 所 有 chunk 增 加 引用 计数 。 


例如 ， 对 文件 foo 执 行 快照 操作 生成 foo_backup,foo 在 GFS 中 有 三 个 chunk : C1, 
Cc2 和 C3 ( 简单 起 见 ， 假 设 每 个 chunk 只 有 一 个 副本 ) 。Master 首 先 需要 收回 cl1、C2 
和 C3 的 写 租约 ， 从 而 保证 文件 foo 处 于 一 致 的 状态 ， 接 着 Master 复 制 foo 文 件 的 元 数 
据 用 于 生成 foo_backup, foo_backup 同 样 指 向 C1、C2 和 和 C3。 快照 前 ，C1、C2 和 C3 
只 被 一 个 文件 foo 引 用 ， 因 此 引用 计数 为 1 ; 执行 快照 操作 后 ， 这些 chunk 的 引用 计 
数 增 加 为 2。 以 后 客户 端 再 次 向 C3 追 加 数据 时 ，Master 发 现 C3 的 引用 计数 大 于 1， 通 
知 C3 所 在 的 Chunkserver 本 次 拷贝 C3 生 成 C3'， 客 户 端的 追加 操作 也 相应 地 转向 
C3 '。 

4.1.4 ChunkServer 设 计 

ChunkServer 管 理 大 小 约 为 64MB 的 chunk， 存 储 的 时 候 需 要 保证 chunk 尽 可 能 均匀 地 
分 布 在 不 同 的 磁盘 之 中 ， 需 要 考虑 的 可 能 因素 包括 磁盘 空间 、 最 近 新 建 chunk 数 等 。 


另外 ，Linux 文 件 系统 删除 64MB 大 文件 消耗 的 时 间 太 长 且 没 有 必要 ， 因此， 删除 
chunk 时 可 以 只 将 对 应 的 chunk 文 件 移动 到 每 个 磁盘 的 回收 站 ， 以 后 新 建 chunk 的 时 


候 可 以 重用 。 


ChunkServer 是 一 个 人 磁盘 和 网 络 I0 密 集 型 应 用 ， 为 了 最 大 限度 地 发 挥 机 器 性 能 ， 需 
要 能 够 做 到 将 磁盘 和 网 络 操作 异步 化 ， 但 这 会 增加 代码 实现 的 难度 。 


4.1.5 讨论 


从 GFSs 的 以 构 设计 可 以 看 出 ，GFSs 是 一 个 具有 民 好 可 扩展 性 并 能 够 在 软件 层面 自动 处 
理 各 种 异常 情况 的 系统 。Goog1le 是 一 家 很 重视 自动 化 的 公司 ， 从 早期 的 GFS， 再 到 
Bigtable、Megastore， 以 及 最 近 的 Spanner,Goog1le 的 分 布 式 存储 系统 在 这 一 点 
上 一 脉 相 承 。 由 于 Goog1le 的 系统 一 开始 能 很 好 地 解决 可 扩展 性 问题 ， 所 以 后 续 的 系 
统 能 够 构建 在 前 一 个 系统 之 上 并 且 一 步 一 步 引 入 新 的 功能 ， 如 Bigtable 任 GFS 之 上 
将 海量 数据 组 织 成 表格 形式 ，Megastore、Spanner 又 进一步 在 Bigtable 之 上 融合 
一 些 关 系 型 数据 库 的 功能 ， 整 个 解决 方案 完美 华丽 。 


自动 化 对 系统 的 容错 能 力 提出 了 很 高 的 要 求 ， 在 设计 GFs 时 认为 节点 失效 是 常态 ， 通 
过 在 软件 层面 进行 故障 检测 ， 并 且 通 过 chunk 复 制 操 作 将 原 有 故障 节点 的 服务 迁移 到 
新 的 节点 。 系 统 还 会 根据 一 定 的 策略 ， 如 磁盘 使 用 情况 、 机 器 负载 等 执行 负载 均衡 
操作 。Goog1e 在 软件 层面 的 努力 获得 了 巨大 的 回报 ， 由 于 软件 层面 能 够 做 到 上 自动 化 
容错 ， 底 层 的 硬件 可 以 采用 廉价 的 错误 率 较 高 的 硬件 ， 比 如 廉价 的 SATA 盘 ， 这 大 大 
降低 了 云 服务 的 成 本 ， 在 和 其 他 厂商 的 竞争 中 表现 出 价格 优势 。 比 较 典 型 的 例子 融 
是 Goog1e 的 邮箱 服务 ， 由 于 基础 设施 成 本 低 ，Gmail 服 务 能 够 免费 给 用 尸 提供 更 大 


的 容量 ， 令 其 他 厂商 望尘莫及 ，。 


Google 的 成 功 经 验 也 表明 了 一 点 : 单 Master 的 设计 是 可 行 的 。 单 Master 的 设计 不 
仪 简化 了 系统 ， 而 且 能 够 较 好 地 实现 一 致 性 ， 后 面 我 们 将 要 看 到 的 绝 大 多 数 分 布 式 


仔 储 系统 都 和 GFS 一 样 依赖 单 忌 控 节 点 。 然 而 ， 单 Master 的 设计 并 不 意味 着 实现 GFS 
只 是 一 些 比较 简单 琐碎 的 工作 。 基 于 性 能 考虑 ，GFS 提 出 了 “记录 至 少 原子 性 追加 一 
次 ”的 一 致 性 模型 ， 通 过 租约 的 方式 将 每 个 chunk 的 修改 授权 下 放 到 ChunkServer 从 
而 减少 Master 的 负载 ， 通 过 流水 线 的 方式 复制 多 个 副本 以 减少 征 时 ， 追加 流程 复杂 
繁 项 。 另 外 ，Master 维 护 的 元 数据 有 很 多 ， 需要 设计 高 效 的 数据 结构 ， 占 用 内 存 
小 ， 并 且 能 够 支持 快照 操作 。 支 持 写 时 复制 的 B 树 能 够 满足 Master 的 元 数据 管理 需 
求 ， 然 而 ， 它 的 实现 是 相当 复杂 的 。 


4.2 Taobao File System 


互联 网 应 用 经 常 需要 存储 用 户 上 传 的 文档 、 图 片 、 视 频 等 ， 比 如 Facebook 相 册 、 淘 
宝 图 片 、Dropbox 文 档 和 等。 文档、 图 片 、 视 频 一 般 称 为 Blob 数 据 ， 存储 Blob 数 据 的 
文件 系统 也 相应 地 称 为 Blob 存 储 系 统 。 每 个 Blob 数 据 一 般 都 比较 大 ， 而 且 多 个 Blob 
之 间 没 有 关联 。B1ob 文 件 系 统 的 特点 是 数据 写 入 后 基本 都 是 只 读 ， 很 少 出 现 更 新 操 
作 。 这 两 节 分 别 以 Taobao File System 和 Facebook Haystack 为 例 说 明 Blob 文 件 
系统 的 架构 。 


2897 年 以 前 淘宝 的 图 片 存储 系统 使 用 了 昂贵 的 NetApp 存 储 设备 ， 由 于 淘宝 数据 量 大 
且 增 长 很 快 ， 出 于 性 能 和 成 本 的 考虑 ， 淘宝 上 自主 研发 了 Blob 和 存储 系统 Tabao File 
System ( TFS ) 。 目 前 ，TFS 中 存储 的 图 片 规模 已 经 达到 百 亿 级 别 。 


TFS 架 构 设 计时 需要 考虑 如 下 两 个 问题 : 


eMetadata 信 息 存 储 。 由 于 图 片 数量 巨大 ， 单 机 存放 不 了 所 有 的 元 数据 信息 ， 假 设 
每 个 图 片 文 件 的 元 数据 占用 166 字 节 ，168 亿 图 片 的 元 数据 占用 的 空间 为 
16Gx6.1KB=1TB， 单 台 机 器 无 法 提供 元 数据 服务 。 


e 减 少 图 片 读 取 的 I0 次 数 。 在 普通 的 Linux 文 件 系统 中 ， 读 取 一 个 文件 包括 三 次 磁盘 
IO : 首先 读 取 目录 元 数据 到 内 存 ， 其 次 把 文件 的 ijnode 忆 点 沪 载 到 内 存 ， 最 后 读 取 
实际 的 文件 内 容 。 由 于 小 文件 个 数 太 多 ， 无 法 将 所 有 目录 及 文件 的 ijnode 信 息 缓存 到 
内 存 ， 因 此 磁盘 I0 次 数 很 难 达到 每 个 图 片 读 取 只 需要 一 次 磁盘 I0 的 理想 状态 。 


因此 ，TFS 设 计时 采用 的 思路 是 : 多 个 逻辑 图 片 文件 共享 一 个 物理 文件 。 
4.2.1 系统 架构 


TFS 架 构 上 借鉴 了 GFS， 但 与 G6FS 又 有 很 大 的 不 同 。 首 先 ，TFS 内 部 不 维护 文件 目录 
树 ， 每 个 小 文件 使 用 一 个 64 位 的 编号 表示 ; 其 次 ，TFS 是 一 个 读 多 写 少 的 应 用 ， 相 比 
GFS, TFS 的 写 流程 可 以 做 得 更 加 简单 有 效 。 


如 图 4-4 所 示 ， 一 个 TFS 集 群 由 两 个 NameServer 节 点 ( 一 主 一 备 ) 和 多 个 
DataServer 节 点 组 成 ，NameServer 通 过 心跳 对 Datasrver 的 状态 进行 监测 。 
NameServer 相 当 于 GFS 中 的 Master ,DataServer 相 当 于 GFS 中 的 ChunkServer。 
NameServer 区 分 为 主 NameServer 和 备 NameServer ， 只 有 主 NameServer 提 供 服 

务 ， 当 主 NameSserver 出 现 故障 时 ， 能 够 被 心跳 守护 进程 检测 到 ， 并 将 服务 切换 到 备 
NameServer。 每 个 Dataserver. 上 会 运行 多 个 dsp 进 程 ， 一 个 dsp 对 应 一 个 挂 载 点 , 
这 个 挂 载 点 一 般 对 应 一 个 独立 磁盘 ， 从 而 管理 多 块 磁盘 。 
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4-4 TFS 整 体 架构 


在 TFs 中 ， 将 大 量 的 小 文件 ( 实际 数据 文件 ) 合并 成 一 个 大 文件 ， 这 个 大 文件 称 为 块 
(Block) ， 每 个 Block 拥 有 在 集群 内 唯一 的 编号 ( 块 ID ) ， 通 过 < 块 ID， 块 内 偏 移 
> 可 以 唯一 确定 一 个 文件 。TFS 中 Block 的 实际 数据 都 存储 在 Dataserver 中 ， 大 小 
一 般 为 64MB， 默 认 存储 三 份 ， 相 当 于 GFs 中 的 chunk。 应 用 客户 端 是 TFs 提 供给 应 用 
程序 的 访问 接口 ， 应 用 客户 端 不 缓存 文件 数据 ， 只 缓存 Nameserver 的 元 数据 。 


1. 追 加 流程 


TFS 中 的 追加 流程 相 比 GFSs 要 简单 有 效 很 多 。GFS 中 为 了 减少 对 Master 的 压力 ，3 引 入 
了 租约 机 制 ， 从 而 将 修改 权限 下 放 到 主 ChunkServer， 很 多 追加 操作 都 不 需要 
Master 参 与 。 然 而 ，TFS 是 写 少 读 多 的 应 用 ， 即 使 每 次 写 操作 都 需要 经 过 NameNode 


也 不 会 出 现 问题 ， 大 大 简化 了 系统 的 设计 。 另 外 ，TFS 中 也 不 需要 支持 类 似 GFS 的 多 
客户 端 并 发 追加 操作 ， 同 一 时 刻 每 个 Block 只 能 有 一 个 写 操作 ， 多 个 客户 端的 写 操作 
会 被 串 行 化 。 


如 图 4-5 所 示 ， 客 户 端 首先 向 NameServer 发 起 写 请 求 ，NameServer 需 要 根据 
DataServer 上 的 可 写 块 、 容 量 和 负载 加 权 平 均 来 选择 一 个 可 写 的 Block， 并 且 在 该 
Block 所 在 的 多 个 Dataserver 中 选择 一 个 作为 写 入 的 主 副本 (Primary ) ， 其 他 的 
作为 备 副本 (Secondary ) 。 接 着 ， 客户 端 向 主 副 本 写 入 数据 ， 主 副本 将 数据 同步 
到 多 个 备 副 本 。 如 果 所 有 的 副本 都 修改 成 功 ， 主 副本 会 首先 通知 NameServer 更 新 
Block 的 版 本 号 ， 成 功 以 后 才 会 返回 客户 端 操作 结果 。 如 果 中 间 发 生 任 何 错误 ， 客 户 
端 都 可 以 从 第 一 步 开 始 重 试 。 相 比 GFs ,TFS 的 写 流程 不 够 优化 ， 第 一 ， 每 个 写 请 求 
都 需要 多 次 访问 NameServer ; 第 二 ， 数据 推送 也 没有 采用 流水 线 方式 减 小 延迟 。 淘 
宝 的 系统 是 需求 驱动 的 ， 用 最 简单 的 方式 解决 用 户 面临 的 问题 。 
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4-5 TFS 追 加 流程 


每 个 写 操 作 返 回 后 ， 会 返回 客户 端 两 个 信息 ， 人 小 文件 在 TFS 中 的 Block 编 号 ( Block 
id) 以 及 Block 偏 移 (Block offset). 。 应 用 系统 会 将 这 些 信息 保存 到 数据 库 中 ， 
图 片 读 取 的 时 候 首 先 根据 Block 编 号 从 NameServer 查 找 Block 所 在 的 DataServer , 
然后 根据 Block 偏 移 读 取 图 片 数 据 。TFS 的 一 致 性 模型 保证 所 有 返回 给 客户 端的 < 
Blockid,Block offset > 标识 的 图 片 数据 在 TFS 中 的 所 有 副本 都 是 有 效 的 。 


2.NameServer 


NameServer 主 要 功能 是 : Block 管 理 ， 包括 创建 、 删 除 、 复 制 、 重 新 均衡 ; Data- 
Server 管 理 ， 包括 心跳 、DataServer 加 入 及 退出 ; 以 及 管理 Block 与 所 在 
DataServer 之 间 的 映射 关系 。 与 GFS Master 相 比 ，TFS NameServer 最 大 的 不 同 就 
是 不 需要 保存 文件 目录 树 信息 ， 也 不 需要 维护 文件 与 Block 之 间 的 映射 关系 。 


NameServer 与 DataServer 之 间 保 持 心跳 ， 如 果 NameServer 发 现 某 从 DataServer 
发 生 故 障 ， 需 要 执行 Bblock 复 制 操作 ; 如 果 新 DataServer 加 入 ，NameServer 会 触 上 
Block 负 载 均衡 操作 。 和 GFs 类 似 ，TFS 的 负载 均衡 需要 考虑 很 多 因素 ， 如 机 架 分 
布 、 磁 盘 利 用 率 、DataServer 读 写 负 载 等 。 另 外 ， 新 DataSserver 加 入 集群 时 也 需 


要 限制 同时 迁 入 的 Block 数 量 防止 被 压 垮 。 


NameServer 采 用 了 HA 结构 ， 一 主 一 备 ， 主 NameServer 上 的 操作 会 重 放 至 备 
NameSserver。 如 果 主 NameServer 出 现 问题 ， 可 以 实时 切换 到 备 NameServer。 


4.2.2 讨论 


图 片 应 用 中 有 几 个 问题 ， 第 一 个 问题 是 图 片 去 重 ， 第 二 个 问题 是 图 片 更 新 与 删除 。 


由 于 用 户 可 能 上 传 大 量 相同 的 图 片 ， 因 此 ， 图 片上 传 到 TFSs 前 ， 需 要 去 重 。 一 般 在 外 
部 维护 一 套 文 件 级 别 的 去 重 系统 ( Dedup ) ， 采 用 MD5 或 者 SHA1 等 Hash 算 法 为 图 片 广 
件 计算 指纹 ( FingerPrint ) 。 图 片 写 入 TFS 之 前 首先 到 去 重 系统 中 查找 是 否 存在 指 
纹 ， 如 果 已 经 存在 ， 基本 可 以 认为 是 重复 图 片 ; 图 片 写 入 TFS 以 后 也 需要 将 图 片 的 指 
纹 以 及 在 TFS 中 的 位 置信 息 保存 到 去 重 系 统 中 。 去 重 是 一 个 键 值 存储 系统 ， 淘宝 内 部 
使 用 5.2 节 中 的 Tair 来 进行 图 片 去 重 。 


图 片 的 更 新 操作 是 在 TFS 中 写 入 新 图 片 ， 并 在 应 用 系统 的 数据 库 中 保存 新 图 片 的 位 
置 ， 图 片 的 删除 操作 仅仅 在 应 用 系统 中 将 图 片 删除 。 图 片 在 TFS 中 的 位 置 是 通过 < 
Block id,Block offset» 标识 的 ， 且 Block 偏 移 是 在 Block 文 件 中 的 物理 偏 移 , 
因此 ， 每 个 Block 中 只 要 还 有 一 个 有 效 的 图 片 文件 融 无 法 回收 ， 也 无 法 对 Block 文 件 
进行 重 整 。 如 果 系 统 的 更 新 和 删除 比较 频繁 ， 需 要 考虑 磁盘 空间 的 回收 ， 这 点 会 在 
Facebook Haystack 系 统 中 具体 说 明 。 


4.3 Facebook Haystack 


FacebookHRlfzfis f 2600[Z5KRRH. , IXX/]N7J20PB , 3i iT Rn] ASH SERKRR A BS 
平均 大 小 为 28PB/268GB， 约 为 88KB。 用 户 每 周 新 增 照片 数 为 10 亿 ( 总 大 小 为 

66TB ) ， 平 均 每 秒 新 增 的 照片 数 为 169/7/46866 ( 按 每 天 48666s 计 ) ， 约 为 每 秒 
3566 次 写 操 作 ， 读 操作 峰值 可 以 达到 每 秒 百 万 次 。 


Facebook 相 册 后 端 早期 采用 基于 NAS 的 存储 ， 通 过 NFSs 挂 载 NAs 中 的 照片 文件 来 提供 
服务 。 后 来 出 于 性 能 和 成 本 考虑 ， 目 主 研 友 了 Facebook Haystack 存 储 相册 数据 。 


4.3.1 系统 架构 


Facebook Haystack 的 思路 与 TFs 类 似 ， 也 是 多 个 逻辑 文件 共享 一 个 物理 文件 。 


Haystack 架 构 及 读 请 求 处 理 流程 如 图 4-6 所 示 。 
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图 4-6 Haystack 架 构图 


Haystack 系 统 主要 包括 三 个 部 分 : 目录 (Directory). 、 和 存储 (Store) 以 及 缓存 
( Cache ) 。Haystack 和 存储 是 物理 存储 节点 ， 以 物理 短 轴 (physical volume) 的 
形式 组 织 仓储 空间 ， 每 个 物理 卷轴 一 般 都 很 大 ， 比 如 186GB， 这 样 16TB 的 数据 也 只 
需 166 个 物理 卷轴 。 每 个 物理 卷轴 对 应 一 个 物理 文件 ， 因 此 ， 每 个 仓储 节点 上 的 物理 
文件 元 数据 都 很 小 。 多 个 物理 存储 节点 上 的 物理 卷轴 组 成 一 个 逻辑 卷轴 ( logical 
volume) ， 用 于 备份 。Haystack 目 录 和 存放 逻辑 卷轴 和 物理 卷轴 的 对 应 关系 ， 以 及 照 
片 id 到 逻辑 卷轴 之 间 的 映射 关系 。Haystack 缓 存 主 要 用 于 解决 对 CDN 提 供 商 过 于 依 


赖 的 问题 ， 提 供 最 近 增 加 的 照片 的 缓存 服务 。 


Haystack 照 片 读 取 请 求 大 致 流程 为 : 用 户 访问 一 个 页 面 时 ，Web 服 务 器 请 求 
Haystack 目 录 构 造 一 个 URL : http:// « CDN»/ «Cache» /«Machine id»/« 
Logical volume,Photo» > ， 后 续 根 据 各 个 部 分 的 信息 依次 访问 CDN、Haystack 缓 
存 和 后 端的 Haystack 仓 储 节 点 。Haystack 目 录 构 造 URL 时 可 以 省 略 < CDN > 部 分 从 
而 使 得 用 户 直接 请 求 Haystack 缓 存 而 不 必 经 过 CDN。Haystack 缓 存 收 到 的 请 求 包 含 
两 个 部 分 : 用 户 浏 览 器 的 请 求 及 CDN 的 请 求 ，Haystack 缓 存 只 缓存 用 户 浏 览 器 发 送 
的 请 求 且 要 求 请 求 的 Haystack 和 存储 节点 是 可 写 的 。 一 般 来 说 ，Haystack 后 端的 存储 


节操 写 一 段 时 间 以 后 达到 容量 上 限 变 为 只 读 ， 因 此， 可 写 节 扣 的 照 厂 为 最 近 增 加 的 
照片 ， 是 热点 数据 。 本 书 暂 不 讨论 CDN， 只 讨论 Haystack 后 端 存储 系统 ， 包括 


Haystack 目 录 和 Haystack 缓 人 存 两 个 部 分 。 
1 . 写 流程 


如 图 4-7 所 示 ，Haystack 的 写 请 求 ( 照片 上 传 ) 处 理 流程 为 : Web 服 务 器 首先 请 求 
Haystack 目 录 获 取 可 写 的 逻辑 卷轴 ， 接 着 生成 照片 唯一 id 并 将 数据 写 入 每 一 个 对 应 
的 物理 卷轴 ( 备份 数 一 般 为 3 ) 。 写 操作 成 功 要 求 所 有 的 物理 卷轴 都 成 功 ， 如 果 中 间 
出 现 故 障 ， 需 要 重 试 。 






Haystack 


a MM 


4-7 Haystack 写 流程 


Haystack 的 一 致 性 模型 保证 只 要 写 操 作成 功 ， 逻 辑 卷轴 对 应 的 所 有 物理 卷轴 都 仔 在 
一 个 有 效 的 照片 文件 ， 但 有 效 照 片 文 件 在 不 同 物理 卷轴 中 的 仿 移 (offset ) 可 能 不 
同 。 


Haystack 和 存储 节点 只 支持 追加 操作 ， 如 果 需 要 更 新 一 张 照片 ， 可 以 新 增 一 张 编号 相 
同 的 照片 到 系统 中 ， 如 果 新 增 照 片 和 原 有 的 照片 在 不 同 的 逻辑 卷轴 ，Haystack 目 录 
的 元 数据 会 更 新 为 最 新 的 逻辑 卷轴 ; 如 果 新 增 照片 和 原 有 的 照片 在 相同 的 逻辑 卷 

轴 ，Haystack 存 储 会 以 俩 移 更 大 的 照片 文件 为 准 。 


2 .容错 处 理 


(1) Haystack 存 储 节 点 容错 


检测 到 存储 节点 故障 时 ， 所 有 物理 卷轴 对 应 的 逻辑 卷轴 都 被 标记 为 只 读 。 和 存储 节操 
上 的 未 完成 的 写 操作 全 部 失败 ， 写 操作 将 重 试 ; 如 果 友 生 故障 的 存储 节操 不 可 恢 

F, 需要 执行 一 个 拷贝 任务 ， 从 其 他 副本 所 在 的 存储 节操 拷贝 丢失 的 物理 夫 轴 的 数 
据 ; 由 于 物理 卷轴 一 般 很 大 ， 比 如 166GB， 所 以 拷贝 的 过 程 会 很 长 ， 一 般 为 小 时 级 


别 。 
( 2) Haystack 目 录 容 错 


Haystack 目 录 采 用 主 备 数据 库 ( Replicated Database ) 做 持久 化 人 存储， 由 主 备 
数据 库 提 供 容 错 机 制 。 


3.Haystack 目 录 

Haystack 目 录 的 功能 如 下 : 

1) 提供 逻辑 卷轴 到 物理 卷轴 的 映射 ， 维 护照 片 id 到 逻辑 卷轴 的 映射 ; 
2) 提供 负载 均衡 ， 为 写 操作 选择 逻辑 卷轴 “， 读 操作 选择 物理 卷轴 ; 

3 ) 屏蔽 CDN 服 务 ， 可 以 选择 某 些 图 片 请 求 直接 走 Haystack 缓 存 ; 

4 ) 标记 某 些 逻辑 卷轴 为 只 读 。 


根据 前 面 的 计算 结果 可 知 ，Facebook 相 册 系 统 每 秒 的 写 操作 大 约 为 3566 次 ， 每 秒 的 
读 请 求 大 约 为 1986 万 次 。 每 个 写 请 求 都 需要 通过 Haystack 缓 存 获取 可 写 的 卷轴 ， 
个 读 请 求 需要 通过 Haystack 缓 存 构造 读 取 URL。 这 里 需要 注意 ， 照 片 id 到 逻辑 卷轴 


的 映射 的 数据 量 太 大 ， 单 机 内 存 无 法 人 存放， 笔者 猜测 内 部 使 用 了 MySQL Sharding& 


群 ， 另 外 ， 还 增加 了 一 个 Memcache 集 群 满足 查询 需求 。 
4.Haystack 人 存储 


Haystack 存 储 保 存 物理 卷轴 ,每 个 物理 卷轴 对 应 文件 系统 中 的 一 个 物理 文件 ， 每 个 
物理 文件 的 格式 如 图 4-8 所 示 。 
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4-8 Haystack 数 据 块 格式 


多 个 照片 文件 存放 在 一 个 物理 卷轴 中 ， 每 个 照片 文件 是 一 个 Needle， 包 合 实 际 数据 
及 逻辑 照片 文件 的 元 数据 。 部 分 元 数据 需要 涂 载 到 内 存 中 用 于 照片 查找 ， 包括 

Key ( 照片 id ，8 字 节 ) , Alternate Key ( 照片 规格 ， &lf&Thumbnail, Small, 
Medium 及 Large，4 字 节 ) ， 照 片 在 物理 卷轴 的 偏 移 Offset ( 4 字 节 ) ， 照 片 的 大 小 
Size ( 4 字 节 ) ， 每 张 照 片 占 用 8+8+4=26 字 节 的 空间 ， 假 设 每 台 机 器 的 可 用 磁盘 为 
8TB， 照 片 平均 大 小 为 86KB， 单 机 存储 的 照片 数 为 8TB/86KB=16eMB， 占 用 内 存 


100MB x 20-2GB, 


TEPARA, PRKEAFPIIZSRRERE , EANES RETA 
长 ， 因 此 ， 对 每 个 物理 卷轴 维护 了 一 个 索引 文件 ( Index File) , MF Needle 
查找 相关 的 元 数据 。 写 操作 首先 更 新 物理 卷轴 文件 ， 然 后 异步 更 新 索引 文件 。 由 于 
更 新 索引 文件 是 异步 的 ， 所 以 可 能 出 现 索 引文 件 和 物理 卷轴 文件 不 一 致 的 情况 ， 不 
过 由 于 对 物理 卷轴 文件 和 索引 文件 的 操作 都 是 追加 操作 ， 只 需要 扫描 物理 郑 轴 文件 
最 后 写 入 的 几 个 Needle， 然 后 补 全 索引 文件 即 可 。 这 种 技术 在 仅 支 持 追 加 的 文件 系 
统 很 常见 。 


Haystack Store 和 存储 节点 采用 延迟 删除 的 回收 荣 略 ， 删 除 照片 只 是 向 卷轴 中 追加 一 
个 带 有 删除 标记 的 Needle， 定 时 执行 Compaction 任 务 回收 已 删除 空间 。 所 谓 
Compaction 操 作 ， 即 将 所 有 老 数 据 文件 中 的 数据 扫 摘 一 志 ， 以 保留 最 新 一 个 照片 的 
原则 进行 删除 ， 并 生成 新 的 数据 文件 。 


4.3.2 讨论 


相 比 TFS, Haystack 的 一 大 特色 丈 是 磁盘 空间 回收 。B1ob 文 件 在 TFS 中 通过 < Block 
id,Block offset > 标识 ， 因 此 ， 不 能 对 TFS 中 的 数据 块 进行 重 整 操作 ; 而 
Haystack 中 的 元 信息 只 能 定位 到 Blob 文 件 所 在 的 逻辑 卷轴 ，Haystack 存 储 节点 可 
以 根据 情况 对 物理 卷轴 进行 Compaction 操 作 以 回收 磁盘 空间 。 


Facebook Haystack 中 每 个 逻辑 卷轴 的 大 小 为 1886GB， 这 样 减少 了 元 信息 ， 但 是 增 
加 了 迁移 的 时 间 。 假 设 限制 内 部 网 络 市 这 为 20MB/s， 那 么 迁移 1068GB 的 数据 需要 的 
时 间 为 666GB/26MB/s=5888s， 大 约 是 一 个 半 小 时 。 而 TFS 设 计 的 数据 规模 相 比 
Haystack 要 小 ， 因 此 ， 可 以 选择 64MB 的 块 大 小 ， 有 利于 负载 均衡 。 


另外 ，Haystack 使 用 RAID 6， 并 且 底 层 文件 系统 使 用 性 能 更 好 的 XFS， 淘 宝 TFS 不 
使 用 RAID 机 制 ， 文 件 系 统 使 用 Ext3， 由 应 用 程序 负责 管理 多 个 磁盘 。Haystack 使 用 
了 Akamai&Limelight 的 CDN 服 务 ， 而 淘宝 已 经 使 用 自 建 的 CDN， 当 然 ，Facebook 
也 在 考虑 上 自 建 CDN。 


4.4 内 容 分 发 网 络 


CDN 通 过 将 网 络 内 容 上 友 布 到 靠近 用 户 的 边缘 节 点 ， 使 不 同 地 域 的 用 户 在 访问 相同 网 页 
时 可 以 就 近 获 取 。 这 样 既 可 以 减轻 涯 服务 器 的 负担 ， 也 可 以 减少 整个 网 络 中 的 流量 
分 布 不 均 的 情况 ， 进 而 改善 整个 网 络 性 能 。 所 谓 的 边 绿 节 点 是 CDN 服 务 提 供 商 经 过 精 
心 挑选 的 距离 用 户 非 常 近 的 服务 器 节点， X "E" (Single Hop) ZÈ. APE 
访问 时 融 无 需 再 经 过 多 个 路 由 器 ， 大 大 减少 访问 时 间 。 


从 图 4-9 可 以 看 出 ，DNS 在 对 域名 解析 时 不 再 向 用 己 返 回 源 服务 器 的 IP， 而 是 返回 了 


由 智能 CDN 负 和 载 均衡 系统 选 定 的 某 个 边缘 节点 的 TP。 用 户 利 用 这 个 IP 访 问 边缘 节 


面 ， 如 果 请 求 成 功 ， 边 缘 节 点 会 将 页 面 缓存 下 来 ， 下 次 用 尸 访 问 时 可 以 直接 读 取 , 
而 不 需要 每 次 都 访问 源 服务 器 。 
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4-9 用 户 访问 CDN 的 整体 流程 
4.4.1 CDN 架 构 


淘宝 CDN 系 统 用 于 支持 用 户 购 物 ， 尤 其 是 “ 双 11” 光 棍 节 时 的 海量 图 片 请 求 。 如 图 
4-16 所 示 ， 图 片 存储 在 后 台 的 TFS 集 群 中 ，CDN 系 统 将 这 些 图 片 缓存 到 离 用 户 最 近 的 
边缘 节点 。CDN 及 用 两 级 Cache : L1-Cache 以 及 L2-Cache。 用 户 访问 淘宝 网 的 图 片 
时 ， 通 过 全 局 调度 系统 (Global Load Balancing) 调度 到 某 个 L1-Cache 节 点 。 
如 果 L1-Cache 命 中 ， 那 么 直接 将 图 片 数据 返回 用 户 ; 否则 ， 请求 L2-Cache 节 点 ， 并 
将 返回 的 图 片 数 据 缓存 到 L1-Cache 节 点 。 如 果 L2-Cache 命 中 ， 直 接 将 图 片 数 据 返 回 
给 L1-Cache 节 点 ; 否则 ， 请求 源 服务 器 的 图 片 服务 器 集群 。 每 台 图 片 服 务 器 是 一 个 

运行 着 Nginx 的 Web 服 务 器 ， 它 还 会 在 本 地 缓存 图 片 ， 只 有 当 本 地 缓存 也 不 命中 时 才 
会 请 求 后 端的 TFS 集 群 ， 图 片 服 务 器 集群 和 TFS 集 群 部 署 在 同一 个 数据 中 心 内 。 
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4-10 淘宝 网 CDN 整 体 架 构 


对 于 每 个 CDN 节 点 ， 其 架构 如 图 4-11 所 示 。 从 图 中 可 以 看 出 ， 每 个 CDN 节 点 内 部 通过 
LVSs+Haproxy 的 方式 进行 负载 均衡 。 其 中 ，LVs 是 四 层 负载 均衡 软件 ， 性 能 好 ; 
Haproxy 是 七 层 负 载 均衡 软件 ， 能 够 支持 更 加 灵活 的 负载 均衡 策略 。 通 过 有 机 结合 
两 者 ， 可 以 将 不 同 的 图 片 请 求 调度 到 不 同 的 squid 服 务 器 。 


i HR 5$ Ai 





4-11 淘宝 网 单个 CDN 节 操 架 构 


Squid 服 务 器 用 来 缓存 Blob 图 片 数 据 。 用 尸 的 请 求 按照 一 定 的 策略 友 送 给 某 人 Squid 
服务 器 ， 如 果 缓 存 命 中 则 直接 返回 ; 否则 ，Squid 服 务 器 首先 会 请 求 源 服务 器 获取 图 
片 缓存 到 本 地 ， 接 着 再 将 图 片 数据 返回 给 用 性。 数据 通过 一 致 性 哈 希 的 万 式 .分 布 到 
不 同 的 squid 服 务 器 ， 使 得 增加 /删除 服务 器 只 需要 移动 1/n ( n 为 Squid 服 务 器 忌 
数 ) 的 对 和 象 。 


相 比 分 布 式 存储 系统 ， 分 布 式 组 存 系统 的 实现 要 容易 很 多 。 这 是 因为 缓存 系统 不 需 
要 考虑 数据 持久 化 ， 如 果 缓 存 服务 器 出 现 故 障 ， 只 需要 简单 地 将 它 从 集群 中 别 除 即 
可 。 


1. 分 级 存储 


分 级 存储 是 淘宝 CDN 架 构 的 一 个 很 大 创新 。 由 于 缓存 数据 有 较 高 的 局 部 性 ， 在 Squid 
服务 器 上 使 用 SSD+SAS+SATA 混 合 存 储 ， 图 片 随 着 热点 变化 而 迁移 ， 最 热门 的 存储 到 
SSD， 中 等 热度 的 存储 到 SAS， 轻 热度 的 存储 到 SATA。 通 过 这 样 的 方式 ， 能 够 很 好 地 
结合 SsD 的 性 能 和 SAS、SATA 磁 盘 的 成 本 优势 。 


2 . 低 功 耗 服务 器 定制 


淘宝 CDN 架 构 的 另外 一 个 亮点 是 低 功 耗 服 务 器 定制 。CDN 缓 存 服务 是 I0 密 集 型 而 不 是 
CPU 密集 型 的 服务 ， 因 此 ， 选 用 Inte1l Atom CPU 定制 低 功 耗 服务 器 ， 在 保证 服务 性 
能 的 前 提 下 大 大 降低 了 整体 功 耗 。 


4.4.2 讨论 


由 于 Blob 存 储 系统 读 访问 量 大 ， 更 新 和 删除 很 少 ， 特别 适合 通过 CDN 技 术 分 友人 到 | 离 


用 户 最 近 的 节点 。CDN 也 是 一 种 缓 仔 ， 需 要 考虑 与 源 服 务 器 之 间 的 一 致 性 。 源 服务 器 
更 新 或 者 删除 了 Blob 数 据 ， 需 要 能 够 比较 实时 地 推送 到 CDN 缓 仓 节 点 ， 人 否则 只 能 等 


到 缓存 中 的 对 象 被 淘汰 ， 而 对 象 的 有 效 期 一 般 很 长 ， 热 门 对 象 很 难 被 淘汰。 


另外 ， 淘宝 在 研发 CDN 的 过 程 中 也 友 现 ， 随 着 系统 的 规模 越 来 越 大 ， 商 用 软件 往往 很 
难 满 足 需 求 ， 通 过 采用 开源 软件 与 自主 开 友 相 结 合 的 方式 ， 可 以 有 更 好 的 可 控 性 , 
系统 也 有 更 高 的 可 扩展 性 。 互 联网 技术 的 优势 在 于 规模 效应 ， 随 着 规模 越 来 越 大 , 
单位 成 本 也 会 越 来 越 低 。 


当然 ， 随 着 硬件 技术 的 发 展 ， 淘 宝 CDN 架 构 也 经 历 着 变革 。 例 如 SSsD 价 格 快速 下 降 ， 
使 得 SSD+SAS+SATA 分 级 存储 的 优势 不 再 明显 ， 新 上 线 的 CDN 绥 存 节 点 配备 的 磁盘 均 


为 SSD。 


第 5 A 分 布 式 键 人 系统 


分 布 式 键 值 模型 可 以 看 成 是 分 布 式 表格 模型 的 一 种 特例 。 然 而 ， 由 于 它 只 支持 针对 
单个 key-value 的 增 、 删 、 查 、 改 操作 ， 因此， 适用 3.3.1 节 提 人 到 的 哈 希 分 布 算法 。 


Amazon Dynamo 是 分 布 式 键 值 系 统 ， 最初 用 于 支持 购物 车 应 用 。Dynamo 将 很 多 分 布 
陈 技术 融合 到 一 个 系统 内 ， 学 习 Dynamo 的 设计 对 理解 分 布 式 系统 的 理论 很 有 帮助 。 
当然 ， 这 个 系统 的 主要 价值 在 于 学 术 层 面 ， 从 工程 的 角度 看 ，Dynamo 牺 牲 了 一 致 
性 ， 却 没有 换 来 什么 好 处 ， 不 适合 直接 模仿 。 


Tair 是 淘宝 网 开 上 友 的 分 布 式 键 值 系 统 ， 它 借 些 了 Dynamo 系 统 的 一 些 设计 思路 并 做 了 
一 些 创 新 ， 其 中 最 大 的 变化 丈 是 从 P2P 架 构 修 改 为 市 有 中 心 节点 的 架构 ， 笔 者 认为 , 
这 种 思路 在 大 方向 上 是 正确 的 。 


本 章 首 先 详细 介绍 Amazon Dynamo 的 设计 思路 ， 接 着 介绍 淘宝 网 的 Tair 系 统 。 
5.1 Amazon Dynamo 


Dynamo 以 很 简单 的 键 值 方 式 存 储 数据 ， 不 支持 复杂 的 查询 。Dynamo 中 存储 的 是 数据 
值 的 原始 形式 ， 不 解析 数据 的 具体 内 容 。Dynamo 主 要 用 于 Amazon 的 购物 车 及 S3 云 存 
储 服 务 。 


Dynamo 通 过 组 合 P2P 的 各 种 技术 打造 了 线 上 可 运行 的 分 布 式 键 值 系统 ， 表 5-1 中 人 列 出 
了 Dynamo 设 计时 面临 的 问题 及 最 终 采 取 的 解决 方案 。 


X 5-1 Dynamo 设计 时 面临 的 问题 及 解决 方案 


问 题 采取 的 技术 
数据 分 布 改进 的 一 致 性 喻 希 ( 虚拟 节点 ) 
复制 协议 复制 写 协 议 ( Replicated-write protocol, NWR 参数 可 调 ) 
数据 冲突 处 理 向 量 时 钟 
临时 故障 处 理 数据 回 传 机 制 ( Hinted handoff ) 
永久 故障 后 的 恢复 Merkle 哈 希 树 
成 员 资 格 及 错误 检测 EF Gossip 的 成 员 资 格 和 错误 检测 协议 


5.1.1 数据 分 布 


Dynamo 系 统 采 用 3.3.1 节 ( 见 图 3-2 ) 中 介绍 的 一 任性 哈 希 算法 将 数据 分 布 到 多 个 存 
储 书 点 中 。 一 致 性 哈 希 算法 思想 如 下 : 给 系统 中 每 个 节点 分 配 一 个 随机 token， 这 些 
token 构 成 一 个 哈 希 环 。 执 行 数据 存放 操作 时 ， 先 计算 主键 的 哈 希 值 ， 然 后 存放 到 顺 
时 针 方 向 第 一 个 大 于 或 者 等 于 该 哈 希 值 的 token 所 在 的 节点 。 一 致 性 哈 希 的 优点 在 于 
节操 加 入 /删除 时 只 会 影响 到 在 哈 希 环 中 相 邻 的 节点 ， 而 对 其 他 节点 没 影 响 。 


考虑 到 节点 的 异 构 性 ， 不 同 节 点 的 处 理 能 力 差别 可 能 很 大 ，Dynamo 使 用 了 改进 的 一 
致 性 哈 希 算法 : 每 个 物理 节点 根据 其 性 能 的 差异 分 配 多 个 token , 每 个 token 对 应 一 
个 “虚拟 节点 ”。 每 个 虚拟 节点 的 处 理 能 力 基本 相当 ， 并 随机 分 布 在 哈 希 空间 中 。 
存储 时 ， 数 据 按照 哈 希 值 落 到 某 个 虚拟 节点 负责 的 区 域 ， 然 后 被 存储 在 该 虚拟 节操 
所 对 应 的 物理 节点 中 。 


如 图 5-1 所 示 ， 某 Dynamo 和 集群 中 原来 有 3 个 节点 ， 每 个 节点 分 配 了 3 个 token : 节点 
1(1,4,7) ,节点 2 (2,3，,8) ,节点 3 (8,5,6)。 和 存放 数据 时 ,首先 计算 主 
键 的 哈 希 值 ， 并 根据 哈 希 值 将 数据 存放 到 对 应 token 所 在 的 节点 。 假 设 增加 节点 4 ， 
Dynamo 集 群 可 能 会 分 别 将 节点 1 和 节点 3 的 token 1 和 token 5 迁移 到 节点 4， 节 点 
token 分 配 情况 变 为 : 节点 1 (4,7) ,节点 2 (2，3，8 ) ,节点 3 (8，, 6) 以 及 节 
点 4 ( 1，5 ) 。 这 样 就 实现 了 自动 负载 均衡 。 
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为 了 找到 数据 所 属 的 节点 ， 要 求 每 个 节操 维护 一 定 的 集群 信息 用 于 定位 。Dynamo 系 
统 中 每 个 节点 维护 整个 集群 的 信息 ， 客 户 端 也 缓存 整个 集群 的 信息 ， 因 此 ， 绝 大 部 
分 请 求 能 够 一 次 定位 到 目标 节点。 


由 于 机 器 或 者 人 为 的 因素 ， 系 统 中 的 节操 成 员 加 入 或 者 删除 经 常 友 生 ， 为 了 保证 每 
个 节操 缓存 的 都 是 Dynamo 和 集群 中 最 新 的 成 员 信 息 ， 所 有 节操 每 阳 固 定时 | 间 ( 比如 
1s ) 通过 Gossip 协 议 的 方式 从 其 他 节点 中 任意 选择 一 个 与 之 通信 的 节点 。 如 果 连 接 
成 功 ， 双 万 交 换 各 和 目 保存 的 集群 信息 .。 


Gossip 协 议 用 于 P2P 系 统 中 自治 的 节操 协调 对 整个 集群 的 认识 ， 比 如 集群 的 节点 状 
人 态 、 负 载 情 况 。 我 们 先 看 看 两 个 书 点 A 和 8 是 如 何 交 换 对 世界 的 认识 的 : 


1) A 告诉 6 其 管理 的 所 有 市 点 的 版 本 ( 包括 Down 状 态 和 Up 状态 的 节点 ) ，; 


2) B 告 诉 A 哪 些 版 本 它 比 较 旧 了 ， 哪 些 版 本 它 有 最 新 的 ， 然 后 把 最 新 的 那些 节点 友 给 
A ( 处 于 Down 状 态 的 节点 由 于 版 本 没有 友 生 更 新 所 以 不 会 被 天 注 ) ， 


3 ) A 将 6 中 比较 旧 的 节点 发 送 给 B， 同 时 将 B 友 送 来 的 最 新 节点 信息 做 本 地 更 新 ， 


4 ) B 收 到 A 友 来 的 最 新 节点 信息 后 ， 对 本 地 缓存 的 比较 旧 的 节点 做 更 新 。 


由 于 种 子 古 点 的 存在 ， 新 节点 加 入 可 以 做 得 比较 简单 。 新 节操 加 入 时 首先 与 种 子 市 
所 交换 集群 信息 ， 从 而 对 集群 有 了 认识 。DHT ( Distributed Hash Table , 也 称 为 
一 致 性 哈 希 表 ) 环 中 原 有 的 其 他 节点 也 会 定期 和 种 子 节 点 交换 集群 信息 ， 从 而 友 现 
新 节点 的 加 入 。 


集群 不 断 变 化 ， 可 能 随时 有 机 器 下 线 ， 因 此 , 每 个 节点 还 需要 定期 通过 Gossip 协 议 
同 其 他 节点 交换 集群 信息 。 如 果 友 现 某 个 节操 很 长 时 间 状 态 都 没有 更 新 ， 比 如 距离 
上 次 更 新 的 时 间 间 隔 超 过 一 定 的 阅 值 ， 则 认为 该 节操 已 经 下 线 了 。 


5.1.2 一 致 性 与 复制 


为 了 处 理 节 点 失效 的 情况 ( DHT 环 中 删除 节点 ) ， 需 要 对 节点 的 数据 进行 复制 。 思 路 
如 下 : 假设 数据 存储 N 份 ，DHT 定 位 到 的 数据 所 属 节点 为 K， 则 数据 存储 在 节点 
K,K+1，..….…..，K+N-1 上 。 如 果 第 K+i (0<i<N-1) 台 机 器 宕 机 ， 则 往 后 找 一 台 机 器 
K+NI 临 时 替代 。 如 果 第 K+i 台 机 器 重启 ， 临 时 替代 的 机 器 K+N 能 够 通过 Gossip 协 议 发 
现 ， 它 会 将 这 些 | 临时 数据 归还 K+i， 这 个 过 程 在 Dynamo 中 叫做 数据 回 传 ( Hinted 
Handoff ) 。 机 器 K+i 宕 机 的 这 段 时 间 内 ， 所 有 的 读 写 均 落 入 到 机 器 [K,K+i-1] 和 
[K+i+1 ,K+N] 中 。 如 果 机 器 K+i 永 久 失 效 ， 机 器 K+N 需 要 进行 数据 同步 操作 。 一 般 来 
说 ， 从 机 器 K+i 宕 机 开始 到 被 认定 为 永久 失效 的 时 间 不 会 太 长 ， 积 累 的 写 操作 也 不 会 
太 多 ， 可 以 利用 Merkle 树 对 机 器 的 数据 文件 进行 快速 同步 ( 参见 下 一 小 节 ) 。 


NWR 是 Dynamo 中 的 一 个 亮点 ， 其 中 N 表 示 复 制 的 备份 数 ，R 指 成 功 读 操 作 的 最 少 节点 
数 ，W 指 成 功 写 操作 的 最 少 节 点 数 。 只 要 满足 N+R > N， 就 可 以 保证 当 存 在 不 超过 一 台 
机 器 故障 的 时 候 ， 至 少 能 够 读 到 一 份 有 效 的 数据 。 如 果 应 用 重视 读 效率 ， 可 以 设置 
W-N,R-1; 如 果 应 用 需要 在 读 / 写 之 间 权 衡 ， 一 般 可 设置 N=3，W=2，R=2 ; 当然 ， 如 
果 天 失 最 后 的 一 些 更 新 也 不 会 有 影响 的 话 ， 也 可 以 选择 W=1 , R-1, N-3. 


NWR 看 似 很 完美 ， 其 实 不 然 。 在 Dynamo 这 样 的 P2P 集 群 中 ， 由 于 每 个 节点 存储 的 集群 
言 息 有 所 不 同 ， 可 能 出 现 同一 条 记录 被 多 个 节点 同时 更 新 的 情况 ， 无 法 保证 多 个 节 
点 之 间 的 更 新 顺序 。 为 此 Dynamo 引 入 向 量 时 钟 ( Vector. Clock ) 的 技术 手段 来 党 
试 解决 冲突 ， 如 图 5- 2 所 示 。 


Dynamo 中 的 向 量 时 钟 用 一 个 [nodes, counter Xj, HH , nodes mir, 
counter 是 一 个 计数 器 ， 初 始 为 6， 节 点 每 次 更 新 操作 加 1。 首 先 ，Sx 对 某 个 对 象 进 


行 一 次 写 操 作 ， 产 生 一 个 对 象 版 本 D1 ( [Sx , 1] )， 接 着 Sx 再 次 操作 ，counter 信 更 
新 为 2， 产生 第 二 个 版 本 D2 ( [Sx，2] ) ; 之 后 ，Sy 和 sz 同时 对 该 对 象 进行 写 操作 ， 
Sy 将 目 身 的 信息 加 入 向 量 时 钟 产生 了 新 的 版 本 D3 ( [Sx , 2], [Sy , 11) ，Sz 同 样 产 
生 了 新 的 版 本 信息 D4 ( [Sx, 2], [Sz, 1]) ， 这 时 系统 中 束 有 了 两 个 冲突 的 版 本 。 
最 常见 的 冲突 解决 方法 有 两 种 : 一 种 是 通过 客户 端 逻辑 来 解决 ， 比 如 购物 车 应 用 ; 
另外 一 种 常见 的 策略 是 “last write wins”， 即 选择 时 间 惟 最 新 的 副本 ， 然 而 ， 
这 个 策略 依赖 集群 内 书 点 之 间 的 时 钟 同步 算法 ， 不 能 完全 保证 准确 性 。 


| Sx 处 理 的 .操作 


DI1([Sx,1]) 


| Sx 处 理 的 写 操作 


D2([Sx.2]) 


Sy 处 理 的 写 操作 / em 3 操作 


Syl) D4([Sx,2],[Sz,1]) 


D3([S 
^ /^ 解决 写 冲 突 
DS([S: 


([Sx,3].[Sy.1].[Sz.1]) 





5-2 向 量 时 钟 


向 量 时 钟 不 能 完美 解决 冲突 ， 即 使 N+W > R,Dynamo 也 只 能 保证 每 个 读 取 操 作 能 读 到 
所 有 的 更 新 版 本 ， 这 些 版 本 可 能 冲突 ， 需 要 进行 版 本 合并 。Dynamo 只 保证 最 终 一 至 
性 ， 如 果 多 个 节点 之 间 的 更 新 顺序 不 一 致 ， 客 户 端 可 能 读 取 不 到 期 望 的 结果 。 这 个 
不 一 致 可 题 需 要 注意 ， 因 为 影响 到 了 应 用 程序 的 设计 和 对 整个 系统 的 测试 工作 。 


5.1.3 容错 


Dynamo 把 异常 分 为 两 种 类 型 : 临时 性 的 异常 和 永久 性 异常 。 有 一 些 异 党 是 临时 性 
的 ， 比 如 机 器 假死 ; 其 他 异常， 如 硬盘 报修 或 机 器 报废 等 ， 由 于 其 持续 时 间 太 长 ， 
称 为 永久 性 的 。 下 面 解释 Dynamo 的 容错 机 制 | : 


e 数 据 回 传 在 Dynamo 设 计 中 ， 一 份 数据 被 写 到 K,K+1 , ...... ; K+N-1 这 N 人 台 机 器 上 ， 


如 果 机 器 K+i ( 8e<i<N-1 ) 宕 机 ， 原 本 写 入 该 机 器 的 数据 转移 到 机 器 K+N， 如 果 在 指 
定 的 时 间 T 内 K+i 重 新 提供 服务 ， 机 器 K+N 将 通过 Gossip 协 议 友 现 ， 并 将 局 动 传输 任 
务 将 暂 存 的 数据 回 传 给 机 器 K+i。 


eMerkle 树 同步 如 果 超 过 了 时 间 T 机 器 K+i 还 是 处 于 宕 机 状态 ， 这 种 异常 被 认为 是 永 
入 性 的 。 这 时 需要 借助 Merkle 树 机 制 从 其 他 副本 进行 数据 同步 。Merkle 树 同步 的 原 
理 很 简单 ， 每 个 非 叶 子 忆 点 对 应 多 个 文件 ， 为 其 所 有 子 节操 值 组 合 以 后 的 哈 希 值 ; 
叶子 节点 对 应 单个 数据 文件 ， 为 文件 内 容 的 哈 希 值 。 这 样 ， 任 何 一 个 数据 文件 不 匹 
配 都 将 导致 从 该 文件 对 应 的 叶子 节点 到 根 节点 的 所 有 节点 值 不 同 。 每 台 机 器 对 每 一 
段 学 围 的 数据 维护 一 颗 Merkle 树 ， 机 器 同步 时 首先 传输 Merkle 树 信息 ， 并且 只 需 
同步 从 根 到 叶子 的 所 有 节点 值 均 不 相同 的 文件 。 


e 读 取 修 复 假设 N=3，W=2 ，R=2， 机 器 K 宕 机 ， 可 能 有 部 分 写 操作 已 经 返回 客户 端 成 
功 了 但 是 没有 完全 同步 到 所 有 的 副本 ， 如 果 机 器 K 出 现 永 久 性 异常 ， 比 如 磁盘 故障 ， 
三 个 副本 之 间 的 数据 一 直 都 不 一 致 。 客 户 端的 读 取 操 作 如 果 发 现 了 某 些 副本 版 本 太 
老 ， 则 启动 异步 的 读 取 修 复 任 务 。 该 任务 会 合并 多 个 副本 的 数据 ， 并 使 用 合并 后 的 
结果 更 新 过 期 的 副本 ， 从 而 使 得 副本 之 间 保 持 一 致 。 


5.1.4 负载 均衡 


Dynamo 的 负载 均衡 取决 于 如 何 给 每 台 机 器 分 配 虚 拟 节 点 号 ， 即 token。 由 于 集群 环 
境 的 异 构 性 ， 每 台 物 理 机 器 包含 多 个 虚拟 节点 。 一 般 有 如 下 两 种 分 配 节 点 号 的 方 
法 。 


e 随 机 分 配 。 每 台 物 理 节操 加 入 时 根据 其 配置 情况 随机 分 配 S 个 Token。 这 种 方法 的 
负载 平衡 效果 还 是 不 错 的 ， 因 为 目 然 界 的 数据 大 致 是 比较 随机 的 ， 虽 然 可 能 出 现 某 


段 范 围 的 数据 特别 多 的 情况 ( 如 baidu、sina 等 域名 下 的 网 页 特别 多 ) ， 但 是 只 
切 分 足够 细 ， 即 5 足够 大 ， 负 载 还 是 比较 均衡 的 。 这 个 方法 的 问题 是 可 控 性 较 差 ， 新 
节点 加 入 /离开 系统 时 ， 集 群 中 的 原 有 证 点 都 需要 扫 拉 所 有 的 数据 从 而 找 出 属于 新 
点 的 数据 ，Merkle 树 也 需要 全 部 更 新 ; 另外 ， 增 量 归档 /备份 变 得 几乎 不 可 能 。 


e 数 据 荡 围 等 分 + 随机 分 配 。 为 了 解决 上 种 万 法 的 问题 ， 首 先 将 数据 的 哈 希 空间 等 分 
为 Q=NxS 份 ( N= 机 器 个 数 ，S= 每 台 机 器 的 虚拟 节点 数 ) ， 然 后 每 台 机 器 随机 选择 Ss 个 
分 割 点 作为 Token。 和 上 种 方法 一 样 ， 这 种 方法 的 负载 也 比较 均衡 ， 并 且 每 台 机 器 都 
可 以 对 属于 每 个 学 围 的 数据 维护 一 颗 远 辑 上 的 Merkle 树 ， 新 节点 加 入 /离开 时 只 需 
扫 摘 部 分 数据 进行 同步 ， 并 更 新 这 部 分 数据 对 应 的 逻辑 Merkle 树 ， 增 量 归档 也 变 得 
SF, 


另外 ，Dynamo 对 单机 的 前 后 台 任 务 资 源 分 配 也 做 了 一 些 工作 。Dynamo 中 同步 操作 、 
写 操 作 重 试 等 后 台 任 务 较 多 。 为 了 不 影响 正常 的 读 写 服务 ， 需 要 对 后 台 任 务 能 够 使 
用 的 资源 做 出 限制 。Dynamo 中 维护 一 个 资源 授权 系统 。 该 系统 将 整个 机 器 的 资源 切 
分 成 多 个 片 ， 监 控 686 秒 内 的 磁盘 读 写 啊 应 时 间 ， 事 务 超时 时 间 及 锁 ) 站 突 情况 ， 根 据 
监控 信息 算出 机 器 负载 从 而 动态 调整 分 配给 后 台 任 务 的 资源 片 个 数 。 


Dynamo 的 读 写 流程 如 图 5-3 和 图 5-4 所 示 。 


根据 主键 获取 副本 所 在 的 节点 


每 个 副本 将 数据 写 人 本 地 


某 个 副本 回复 写 人 成 功 


回复 客户 端 写 人 成 功 





5-3 Dynamo 写 入 流程 


根据 主键 获取 副本 所 在 的 节点 


将 获取 或 冲突 解决 后 的 结果 回 
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明 个 副本 回复 读 取 结果 


恨 据 冲突 处 理 规则 合并 多 个 副 





使 用 冲突 解决 后 的 结果 更 新 不 
a - 致 的 副本 





成 功 ? 





5-4 Dynamo 读 取 流 程 


Dynamo 写 入 数据 时 ， 首 先 ， 根 据 一 致 性 哈 希 算法 计算 出 每 个 数据 副本 所 在 的 存储 市 
所 ， 其 中 一 个 副本 作为 本 次 写 操作 的 协调 者 。 接 着 ， 协 调 者 并 友 地 往 所 有 其 他 副本 
发 送 写 请 求 ， 每 个 副本 将 接收 到 的 数据 写 入 本 地 ， 协调 者 也 将 数据 写 入 本 地 。 当 某 
个 副本 写 入 成 功 后 ， 回复 协调 者 。 如 果 发 给 某 个 副本 的 写 请 求 失 败 ， 协 调 者 会 将 它 
加 入 重 试 列表 不 断 重 试 。 等 到 W-1 个 副本 回复 写 入 成 功 后 ( 即 加 上 协调 者 共 w 个 副本 
写 入 成 功 ) ， 协 调 者 可 以 回复 客户 端 写 入 成 功 。 协 调 者 回复 客户 端 成 功 后 ， 还 会 继 


续 等 待 或 者 重 试 ， 和 直到 所 有 的 副本 都 写 入 成 功 。 


Dynamo 读 取 数 据 时 ， 首 先 ， 根 据 一 致 性 哈 希 算法 计算 出 每 个 副本 所 在 的 存储 节点 ， 
其 中 一 个 副本 作为 本 次 读 操 作 的 协调 者 。 接 着 ， 协 调 者 根据 负载 策略 选择 R 个 副本 ， 
并 友 地 向 它们 友 送 读 请 求 。 每 个 副本 读 取 本 地 数据 ， 协 调 者 也 读 取 本 地 数据 。 当 某 
个 副本 读 取 成 功 后 ， 回复 协调 者 读 取 结果 。 等 到 R-1 个 副本 回复 读 取 成 功 后 ( 即 加 上 
协调 者 共 R 个 副本 读 取 成 功 ) ， 协 调 者 可 以 回复 客户 端 。 这 里 分 为 两 种 情况 : 如 果 R 
个 副本 返回 的 数据 完全 一 致 ， 将 某 个 副本 的 读 取 结 果 回复 客户 端 ; 否则 ， 需 要 根据 
冲突 处 理 规 则 合并 多 个 副本 的 读 取 结 果 。Dynamo 系 统 默认 的 策略 是 根据 修改 时 间 戳 
选择 最 新 的 数据 ， 当 然 用 尸 也 可 以 目 定 义 冲突 处 理 方法 。 读 取 过 程 中 如 果 友 现 某 些 
副本 上 的 数据 版 本 太 | 旧 ，Dynamo 内 部 会 异步 友 起 一 次 读 取 修复 操作 ， 使 用 冲突 解决 
后 的 结果 修正 错误 的 副本 。 


5.1.6 单机 实现 
Dynamo 的 存储 节点 包含 三 个 组 件 : 请 求 协 调 、 成 员 和 故障 检测 、 存 储 引擎 。 


Dynamo 设 计 支 持 可 插 拔 的 存储 引擎 ， 比 如 Berkerly DB (BDB) , MySQL InnoDB 
等 。 人 存储 的 需求 很 多 ， 设 计 成 可 播 拔 的 形式 允许 用 户 根据 应 用 特点 选择 合适 的 存储 
引擎 ， 比 如 BDB 人 存储 的 对 象 大 小 一 般 在 几 十 KB 之 内 ， 而 MySQL 可 以 处 理 更 大 的 对 象 。 
用 户 会 根据 应 用 对 象 大 小 选择 存储 引擎 ， 默 认为 BDB。 


请 求 协调 组 件 采 用 基于 事件 驱动 的 设计 ， 每 个 客户 端的 读 写 请 求 对 应 一 个 状态 机 ， 
系统 根据 发 生 的 事件 及 状态 机 中 的 状态 决定 下 一 步 的 操作 。 比 如 读 取 操作 对 应 的 状 
态 包括 : 


eT E ASSIST RS ; 


eS REM RRIBISEHUSAR , B/PSSERR-17h ; 
e 如 果 请 求 其 他 节操 返回 失败 ， 需 要 按照 一 定 的 策略 重 试 ; 
e 如 果 到 达 时 间 限 制 成 功 的 节点 仍然 小 于 R-1 个 ， 返 回 客户 端 请 求 超时 ; 


e 合 并 协调 者 及 其 他 R-1 个 节点 的 读 取 结果 ， 并 返回 客户 端 ， 合 并 的 结果 可 能 包含 多 
个 冲突 版 本 ; 如 果 设 置 了 冲突 解决 方法 ， 协 调 者 还 需要 解决 冲突 。 


读 操作 成 功 返回 客户 端 以 后 对 应 的 状态 机 不 会 立即 被 销毁 ， 而 是 等 待 一 小 段 时间 , 
这 上段 时 间 内 可 能 还 有 一 些 节 点 会 返回 过 期 的 数据 ， 协 调 者 将 更 新 这 些 节 点 的 数据 到 


最 新 版 本 ， 这 个 过 程 称 为 读 取 修复 。 
5.1.7 讨论 


Dynamo 玉 用 无 中 心 节 点 的 P2P 设 计 ， 增 加 了 系统 可 扩展 性 ， 但 同时 市 来 了 一 致 性 问 
题 ， 影响 上 层 应 用 。 另 外 ， 一 致 性 问题 也 使 得 异常 情况 下 的 测试 变 得 更 加 困难 ， 由 
于 Dynamo 只 保证 最 基本 的 最 终 一 致 性 ， 多 客户 疹 并 上 友 操 作 的 时 候 很 难 预测 操作 结 
果 ， 也 很 难 预测 不 一 致 的 时 间 窗 口 ， 影响 测试 用 例 设计 。 


忌 体 上 看 ，Dynamo 在 Amazon 的 使 用 场景 有 限 ， 后 续 的 很 多 系统 ， 如 Simpledb , 3 
用 其 他 设计 思路 以 提供 更 好 的 一 致 性 。 主 流 的 分 布 式 系统 一 般 都 带 有 中 心 节 点 ， 这 
样 能 够 简化 设计 ， 而 且 中 心 节点 只 维护 少量 元 数据 ， 一 般 不 会 成 为 性 能 瓶颈 。 


从 Amazon、Facebook 等 公司 的 实践 经 验 可 以 得 出 ，Dynamo 及 其 开源 实现 
Cassandra 在 实践 中 受到 的 关注 逐渐 减少 ， 无 中 心 节操 的 设计 短期 之 内 难以 成 为 主 
流 。 另 一 方面 ，Dynamo 综 合 使 用 了 各 种 分 布 式 技术 ， 在 实践 过 程 中 可 以 选择 性 借 
鉴 。 


5.2 淘宝 Tair 


Tair 是 淘宝 开发 的 一 个 分 布 式 键 / 值 存储 引擎 。Tair 分 为 持久 化 和 非 持 久 化 两 种 使 
用 方式 : 非 持 久 化 的 Tair 可 以 看 成 是 一 个 分 布 式 缓存 ,持久 化 的 Tair 将 数据 存放 于 
磁盘 中 。 为 了 解决 磁盘 损坏 导致 数据 丢失 ，Tair 可 以 配置 数据 的 备份 数目 ，Tair 自 
动 将 一 份 数据 的 不 同 备份 放 到 不 同 的 节点 上 ， 当 有 节点 发 生 异 常 ， 无 法 正常 提供 服 
务 的 时 候 ， 其 余 的 节操 会 继续 提供 服务 。 


5.2.1 系统 架构 


Tair 作 为 一 个 分 布 式 系 统 ， 是 由 一 个 中 心 控制 节点 和 阁 干 个 服务 节点 组 成 。 其 中 ， 

中 心 控制 节点 称 为 Config Server , 服务 节 点 称 为 Data Server, Config Server 
负责 管理 所 有 的 Data Server， 维 护 其 状态 信息 ; Data server 对 外 提供 各 种 数据 
服务 ， 并 以 心跳 的 形式 将 自身 状况 汇报 给 config Server. Config Server 是 控制 
点 ， 而 且 是 单 点 ， 目 前 采用 一 主 一 备 的 形式 来 保证 可 靠 性 ,所 有 的 Data Serverit 


位 都 是 等 价 的 。 


图 5-5 是 Tair 的 系统 架构 图 。 客 户 辛 首先 请 求 Config Server 获 取 数 据 所 在 的 Data 
Server， 接 着 往 Data Server 发 送 读 写 请 求 。Tair 人 允许 将 数据 存放 到 多 台 Data 


Server， 以 实现 异常 容错 。 
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5-5 Tair 系 统 架 构 
5.2.2 关键 问题 
(1) 数据 分 布 


根据 数据 的 主键 计算 哈 希 值 后 ， 分 布 到 Q 个 桶 中 ， 桶 是 负载 均衡 和 数据 迁移 的 基本 单 
位 。Config Server 按 照 一 定 的 策略 把 每 个 桶 指派 到 不 同 的 Data Server 上 。 因为 

数据 按照 主键 计算 哈 希 值 ， 所 以 可 以 认为 每 个 桶 中 的 数据 基本 是 平衡 的 ， 只 要 保证 

桶 分 布 的 均衡 性 ， 就 能 够 保证 数据 分 布 的 均衡 性 。 根 据 Dynamo 论 文中 的 实验 结论 

Q 取 值 需要 远大 于 集群 的 物理 机 器 数 ， 例 如 Q 取 值 16246。 


(2) 容错 


当 某 台 Data Server 故 障 不 可 用 时 ，Config Server 能 够 检测 到 。 每 个 哈 希 桶 在 


Tair 中 存储 多 个 副本 ， 如 果 是 备 副本 ， 那 么 config server 会 重新 为 其 指定 一 台 

Data Server， 如 果 是 持久 化 仓储 ， 还 将 复制 数据 到 新 的 Data Server 上 。 如 果 是 
主 副 本 ， 那 么 configserver 首 先 将 某 个 正常 的 备 副本 提升 为 主 副本 ， 对 外 提供 服 
务 。 接 着 ， 再 选择 另外 一 台 Data Server 增 加 一 个 备 副 本 ， 确 保 数 据 的 备份 数 。 


(3) 数据 迁移 


机 器 加 入 或 者 负载 不 均衡 可 能 导致 桶 迁移 ， 迁 移 的 过 程 中 需要 保证 对 外 服务 。 当 迁 
移 发 生 时 ， 假 设 Data Server A 要 把 桶 3、4、5 迁 移 到 Data Server B. Fenk 
前 ， 客 户 端 的 路 由 表 没 有 变化 ， 客 户 端 对 3、4、5 的 访问 请 求 都 会 路 由 到 A。 现 在 假 
设 3 还 没 开始 迁移 ，4 正 在 迁移 中 ，5 已 经 迁移 完成 。 那 么 如 果 对 3 访问 ，A 直 接 服务 ; 
如 果 对 5 访问 ，A 会 把 请 求 转发 给 B， 并 且 将 B 的 返回 结果 返回 给 用 户 ; 如 果 对 4 访问 , 
由 A 处 理 ， 同 时 如 果 是 对 4 的 修改 操作 ， 会 记录 修改 日 志 ， 等 到 桶 4 迁移 完成 时 ， 还 要 
把 修改 日 志 发 送 到 B， 在 B 上 应 用 这 些 修改 操作 ， 直 到 A 和 B 之 间 数 据 完 全 一 致 迁移 才 
真正 完成 。 


(4) Config Server 


客户 端 缓存 路 由 表 ， 大 多 数 情 况 下 ， 客 户 端 不 需要 访问 Config Server,Config 
server 宕 机 也 不 影响 客户 端正 常 访问 。 每 次 路 由 的 变更 ，Config Server 都 会 将 新 
的 配置 信息 推 给 Data Server。 在 客户 端 访 问 Data ServerBRE , ARAMIN 
缓存 的 路 由 表 的 版 本 号 。 如 果 Data Server 发 现 客户 端的 版 本 号 过 旧 ， 则 会 通知 客 
户 端 去 Config Server 获 取 一 份 新 的 路 由 表 。 如 果 客 户 端 访问 某 台 Data Server& 
生 了 不 可 达 的 情况 ( 该 Data Server 可 能 宕 机 了 ) ， 客 户 端 会 主动 去 Config 
server 获 取 新 的 路 由 表 。 


(5)Data Server 


Data Server 负 责 数据 的 存储 ， 并 根据 Config server 的 要 求 完 成 数据 的 复制 和 迁 
移 工 作 。Data server 具备 抽象 的 存储 引 警 层 ， 可 以 很 方便 地 添加 新 存储 引擎 
Data Server 还 有 一 个 插件 容器 ， 可 以 动态 加 载 / 卸 载 插件 ， 如 图 5- 6 所 示 。 
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图 5-6 Data Server 内 部 结构 


Tair 存 储 引 警 有 一 个 抽象 层 ， 只 要 满足 存储 引擎 需要 的 接口 ， 就 可 以 很 方便 地 车 换 
Tair 底 层 的 存储 引擎 。Tair 默 认 包 含 两 个 存储 引擎 : Mdb 和 Fdb， 此 外 ， 还 支持 
Berkerly DB, Tokyo Cabinet、InnoDB、Leveldb 等 各 种 存储 引擎 


5.2.3 讨论 


Amazon Dynamo 采 用 P2P 架 构 ， 而 在 Tair 中 引入 了 中 心 节点 Config Server。 这 种 
方式 很 容易 处 理 数据 的 一 致 性 ， 不 再 需要 向 量 时 钟 、 数 据 回 传 、Merkle 树 、 冲 突 处 
理 等 复杂 的 P2P 技 术 。 另 外 ， 中 心 节操 的 负载 很 低 。 笔 者 认为 ， 分 布 式 刍 值 系统 的 整 
体 架构 应 该 参考 Tair， 而 不 是 Dynamo。 


当然 ，Tair 最 主要 的 用 途 在 于 分 布 式 缓存 ， 持久 化 存储 起 步 比 较 晚 ， 在 实现 细节 上 
也 有 一 些 不 尽 如 人 意 的 地 方 。 例 如 ，Tair 持 久 化 存储 通过 复制 技术 来 提高 可 靠 性 , 
然而 ， 这 种 复制 是 异步 的 。 因 此 ， 当 有 Data Server 发 生 故 障 时 ， 客户 有 可 能 在 一 
定时 间 内 读 不 到 最 新 的 数据 ， 甚 至 友 生 最 新 修改 的 数据 丢失 的 情况 。 


第 6 A 分 布 式 表格 系统 


分 布 式 表格 系统 对 外 提供 表格 模型 ， 每 个 表格 由 很 多 行 组 成 ， 通 过 主键 唯一 标识 ， 
一 行 包含 很 多 列 。 整 个 表格 在 系统 中 全 局 有 序 ， 适 用 3 .3. 2 节 中 讲 的 顺序 分 布 。 


Google Bigtab1e 是 分 布 式 表 格 系统 的 始祖 ， 它 采用 双 层 结构 ， 底 层 采 用 GFSs 作 为 
持久 化 存储 层 。GFS+Bigtable 双 层 架 构 是 一 种 里 程 碑 式 的 架构 ， 其 他 系统 ， 包括 
Microsoft 分 布 式 存 储 系统 Nindows Azure Storage 以 及 开源 的 Hadoop 系 统 ， 均 为 
其 模仿 者 。Bigtable 的 问题 在 于 对 外 接口 不 够 丰富 ， 因 此 ，Goog1le 后 续 开 发 了 两 套 
系统 ， 一 套 是 Megastore， 构建 在 Bigtable 之 上 ， 提供 更 加 丰富 的 使 用 接口 ; 另外 
一 套 是 spanner， 支 持 跨 多 个 数据 中 心 的 数据 库 事 务 ， 下 一 章 会 专门 介绍 。 


本 章 首先 详细 介绍 Bigtable 的 架构 及 实现 ， 接 着 分 析 Megastore 的 架构 ， 最 后 介绍 
Microsoft Azure Storage 的 架构 。 


6.1 Google Bigtable 


Bigtable 是 Google 开 发 的 基于 GFs 和 chubby 的 分 布 式 表格 系统 。Google 的 很 多 数 
据 ， 包括 web 索引 、 卫 星 图 像 数 据 等 在 内 的 海量 结构 化 和 半 结 构 化 数据 ， 都 存储 在 
Bigtable 中 。 与 Google 的 其 他 系统 一 样 ，Bigtable 的 设计 理念 是 构建 在 廉价 的 硬 
FZE, 通过 软件 层面 提供 自动 化 容错 和 线性 可 扩展 性 能 力 。 


Bigtable 系 统 由 很 多 表格 组 成 ， 每 个 表格 包含 很 多 行 ， 每 行 通过 一 个 主键 (Row 
Key ) 唯一 标识 ， 每 行 又 包含 很 多 列 ( Column) 。 某 一 行 的 某 一 列 构 成 一 个 单元 

( Cell )， 每 个 单元 包含 多 个 版 本 的 数据 。 整 体 上 看 ，Bigtable 是 一 个 分 布 式 多 维 
映射 表 ， 如 下 所 示 : 


(row:string,column:string,timestamp:int64)- > string 


另外 ，Bigtable 将 多 个 列 组 织 成 列 族 ( column family) ， 这 样 ， 列 名 由 两 个 部 分 
组 成 : (column family,qualifier ) 。 列 族 是 Bigtable 中 访问 控制 的 基本 单 

元 ， 也 就 是 说 ， 访 问 权限 的 设置 是 在 列 族 这 一 级 别 上 进行 的 。Bigtable 中 的 列 族 在 
创建 表格 的 时 候 需要 预先 定义 好 ， 个 数 也 不 允许 过 多 ; 然而 ， 每 个 列 族 包含 哪些 
qualifier 是 不 需要 预先 定义 的 ，qualifier 可 以 任意 多 个 ， 适 合 表示 半 绪 构 化 数 
据 。 


Bigtable 数 据 的 存储 格式 如 图 6-1 所 示 。 


"contens:" "anchor:ennsi.com" "anchor:my:look.ca" 


"com.cnn.www" 





6-1 Bigtable 数 据 存 储 格式 


Bigtable 中 的 行 主键 可 以 是 任意 的 字符 串 ， 最 大 不 超过 64KB。Bigtab1le 表 中 的 数 
据 按照 行 主键 进行 排序 ， 排 序 使 用 的 是 字典 序 。 图 6-1 中 行 主 键 com. cnn .www 是 域名 
www.cnn. com 变换 后 的 结果 ， 这 样 做 的 好 处 是 使 得 所 有 www. cnn .com 下 的 子 域名 在 


系统 中 连续 存放 。 这 一 行 数据 包含 两 个 列 族 : "contents" #0 "anchor" , Er, 
列 族 “anchor” 叉 包含 两 个 列 ，qualifier 分 别 为 “cnnsi.com” 和 “my : 


look.ca" , 


Google 的 很 多 服务 ， 比 如 web 检 索 和 用 户 的 个 性 化 设置 ， 都 需要 保存 不 同时 间 的 数 
据 ， 这 些 不 同 的 数据 版 本 必须 通过 时 间 戳 来 区 分 。 图 6- 1 中 的 t4、t5 和 t6 表 示 保 存 
了 三 个 时 间 点 获取 的 网 页 。 为 了 简化 不 同 版 本 的 数据 管理 ，Bigtable 提 供 了 两 种 设 
置 : 一 种 是 保留 最 近 的 N 个 不 同 版 本 ， 另 一 种 是 保留 限定 时 间 内 的 所 有 不 同 版 本 ， 比 
如 可 以 保存 最 近 16 天 的 所 有 不 同 版 本 的 数据 。 失 效 的 版 本 将 会 由 Bigtab1le 的 垃圾 回 
收 机 制 自 动 删除 。 


Bigtable 构 建 在 GFs 之 上 ， 为 文件 系统 增加 一 层 分 布 式 系 引 层 。 另 外 ，Bigtable 依 
赖 Google 的 Chubby ( 即 分 布 式 锁 服务 ) 进行 服务 器 选举 及 全 局 信息 维护 。 


如 图 6-2 所 示 ，Bigtable 将 大 表 划 分 为 大 小 在 168 ~ 268MB 的 子 表 ( tablet) ， 每 个 
子 表 对 应 一 个 连续 的 数据 范围 。Bigtable 主 要 由 三 个 部 分 组 成 : 客户 端 程序 库 
( Client ) 、 一 个 主 控 服 务 器 (Master ) 和 多 个 子 表 服务 器 (Tablet Server). 










fF; p xad r1 ap Li: 
& P3wmIT 


元 数据 操作 
E 控 服务 天 


执行 Bigtable 元 数 
据 操 作 负 载 均衡 


Tablet Server Tablet Server 





sts TMT 
Hi: 与 数据 





Chubby (UR 
故障 恢复 、 监 控 存储 操作 日 志 及 存储 元 数据 
f 3& SStable 数据 执行 Master 选举 


6-2 Bigtable 的 整体 架构 


e 客 户 端 程序 库 (Client) : 提供 Bigtable 到 应 用 程序 的 接口 ， 应 用 程序 通过 客户 
端 程序 库 对 表格 的 数据 单元 进行 增 、 删 、 查 、 改 等 操作 。 客 户 端 通过 Chubby 锁 服务 
获取 一 些 控制 信息 ， 但 所 有 表格 的 数据 内 容 都 在 客户 端 与 子 表 服 务 器 之 间 直 接 传 


x 





e 主 控 服 务 器 (Master) : 管理 所 有 的 子 表 服务 器 ， 包 括 分 配子 表 给 子 表 服 务 器 ， 
指导 子 表 服 务 器 实现 子 表 的 合并 ， 接 受 来 自 子 表 服 务 器 的 子 表 分 异 消 息 ， 监控 子 表 
服务 器 ， 在 子 表 服务 器 之 间 进 行 负载 均衡 并 实现 子 表 服务 器 的 故障 恢复 等 。 


e 子 表 服 务 器 (Tablet Server) : 实现 子 表 的 装载 / 卸 出 、 表 格 内 容 的 读 和 写 ， 子 
表 的 合并 和 分 裂 。Tablet Server 服 务 的 数据 包括 操作 日 志 以 及 每 个 子 表 上 的 
sstable 数 据 ， 这些 数 据 存储 在 底层 的 GFs 中 。 


Bigtable 依 赖 于 Chubby 锁 服务 完成 如 下 功能 : 

1 ) 选取 并 保证 同一 时 间 内 只 有 一 个 主 控 服 务 器 ; 

2) 存储 Bigtable 系 统 引 导 信 息 ; 

3 ) 用 于 配合 主 控 服 务 器 发 现 子 表 服务 器 加 入 和 下 线 ; 
4 ) 获取 Bigtable 表 格 的 schema 信 息 及 访问 控制 信息 。 


Chubby 是 一 个 分 布 式 锁 服务 ， 底 层 的 核心 算法 为 Paxos。Paxos 算 法 的 实现 过 程 需 
一 个 “多 数 派 ” 融 某 个 值 达 成 一 致 ， 进 而 才能 得 到 一 个 分 布 式 一 致 性 状态 。 也 融 是 
说 ， 只 要 一 半 以 上 的 节点 不 发 生 故 障 ，Chubby 就 能 够 正常 提供 服务 。chubby 服 务 部 
署 在 多 个 数据 中 心 ， 典 型 的 部 署 为 两 地 三 数据 中 心 五 副本 ， 同 城 的 两 个 数据 中 心 分 
别 部 署 两 个 副本 ， 有 异地 的 数据 中 心 部 署 一 个 副本 ， 任 何 一 个 数据 中 心 整体 友 生 故障 
都 不 影响 正常 服务 。 


Bigtable 包 含 三 种 类 型 的 表格 : 用 户 表 (User Table), 、 元 数据 表 (Meta 
Table) 和 根 表 (Root Table), 。 其 中 ， 用 户 表 仓 储 用 户 实 际 数据 ; 元 数据 表 存 储 
用 户 表 的 元 数据 ; 如 子 表 位 置信 息 、SSTab1le 及 操作 日 志文 件 编号 、 日 志 回 放 点 
等 ， 根 表 用 来 存储 元 数据 表 的 元 数据 ; 根 表 的 元 数据 ， 也 就 是 根 表 的 位 置信 息 ， 又 
称 为 Bigtable 引 导 信息 ， 存放 在 Chubby 系 统 中 。 客 户 端 、 主 控 服 务 器 以 及 子 表 服务 
器 执行 过 程 中 都 需要 依赖 chubby 服 务 ， 如 果 Chubby 发 生 故障 ，Bigtab1le 系 统 整体 
个 吕 用 。 


6.1.2 数据 分 布 


Bigtable 中 的 数据 在 系统 中 切 分 为 大 小 168 ~ 266MB 的 子 表 ， 所 有 的 数据 按照 行 主键 


全 局 排序 。Bigtable 中 包含 两 级 元 数据 ， 元 数据 表 及 根 表 。 用 户 表 在 进行 某 些 操 
作 ， 比 如 子 表 分 裂 的 时 候 需 要 修改 元 数据 表 ， 元 数据 表 的 某 些 操作 又 需要 修改 根 
表 。 通 过 使 用 两 级 元 数据 ， 提 高 了 系统 能 够 支持 的 数据 量 。 假 设 平均 一 个 子 表 大 小 
为 128MB， 每 个 子 表 的 元 信息 为 1KB， 那 么 一 级 元 数据 能 够 支持 的 数据 量 为 
128MBx ( 128MB/1KB ) =16TB， 两 级 元 数据 能 够 支持 的 数据 量 为 

16TBx ( 128MB/1KB ) -2048 PB , 满足 几乎 所 有 业务 的 数据 量 需求 。 如 图 6-3 所 
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6-3 Bigtable 数 据 结 构 


客户 端 查 询 时 ， 首 先 从 Chubby 中 读 取 根 表 的 位 置 ， 接 着 从 根 表 读 取 所 需 的 元 数据 子 
表 的 位 置 ， 最 后 就 可 以 从 元 数据 子 表 中 找到 待 查询 的 用 户 子 表 的 位 置 。 为 了 减少 访 
问 开销 ， 客 尸 端 使 用 了 缓存 ( cache ) 和 预 取 (prefetch ) 技术 。 子 表 的 位 置信 息 
RETES, 客户 端 在 寻 址 时 首先 查找 缓存 ， 一 旦 缓存 为 空 或 者 缓存 信息 过 

期 ， 客 户 端 就 需要 请 求 子 表 服 务 器 的 上 一 级 元 数据 表 获 取 位 置信 息 ， 比 如 用 户 子 表 


缓 仔 过 期 需要 请 求 元 数据 表 ， 元 数据 子 表 缓 仔 过 期 需要 请 求 根 表 ， 根 表 缓 仔 过 期 需 
要 读 取 Chubby 中 的 引导 信息 。 如 果 缓 仔 为 空 ， 最 多 需要 三 次 请 求 ; 如 果 缓 仓 信息 过 
期 ， 最 多 需要 入 次 请 求 ， 其 中 三 次 用 来 确定 信息 是 过 期 的 ， 另 外 三 次 获取 新 的 地 
址 。 预 取 则 是 在 每 次 访问 元 数据 表 时 不 仅 仪 读 取 所 需 的 子 表 元 数据 ， 而 是 读 取 连 续 
的 多 个 子 表 元 数据 ， 这 样 查 找 下 一 个 子 表 时 不 需要 再 次 访问 元 数据 表 。 


6.1.3 复制 与 一 致 性 


Bigtable 系 统 保证 强 一 致 性 ， 同 一 个 时 刻 同 一 个 子 表 只 能 被 一 台 Tablet Server 服 
务 ， 也 束 是 说 ，Master 将 子 表 分 配给 某 个 Tablet Server 服 务 时 需要 确保 没有 其 他 
的 Tablet Server 正 在 服务 这 个 子 表 。 这 是 通过 Chubby 的 互 斥 锁 机 制 保证 的 ， 
Tablet Server 启 动 时 需要 获取 Chubby 互 斥 锁 ， 当 Tablet Server 出 现 故障 , 
Master 需 要 等 到 Tablet Server 的 互 斥 锁 失 效 ， 才 能 把 它 上 面 的 子 表 迁 移 到 其 他 


Tablet Server, 


Bigtable 的 底层 存储 系统 为 GFS ( 参见 前 面 4.1 节 ) 。GFS 本 质 上 是 一 个 弱 一 致 性 系 
统 ， 其 一 致 性 模型 只 保证 “同一 个 记录 至 少 成 功 写 入 一 次 ”， 但 是 可 能 人 存在 重复 记 
RK, 而且 可 能 存在 一 些 补 零 ( padding ) 记录 。 


Bigtable 写 入 GFS 的 数据 分 为 两 种 : 


e 操 作 日 志 。 当 Tablet Server 友 生 故 障 时 ， 它 上 面 服务 的 子 表 会 被 集群 中 的 其 他 
Tablet Server 加 载 继续 提供 服务 。 加 载 子 表 可 能 需要 回放 操作 日 志 ， 每 条 操作 日 
志 都 有 唯一 的 序号 ， 通 过 它 可 以 去 除 重复 的 操作 日 志 。 


e 每 个 子 表 包 含 的 ssTab1le 数 据 。 如 果 写 入 GFS 失 败 可 以 重 试 并 产生 多 条 重复 记录 ， 
但 是 Bigtab1e 只 会 索引 最 后 一 条 写 入 成 功 的 记录 。 


Bigtable AE EEES E-EN ARAS, BICER fGFSISEHEJ—SN 
性 问题 ， 大 大 简化 了 用 尸 使 用 。 


6.1.4 容错 


BigtablerHMasterXjTablet Server 的 监控 是 通过 Chubby 完 成 的 ，Tablet 
Server 在 初始 化 时 都 会 从 Chubby 中 获取 一 个 独占 锁 。 通 过 这 种 方式 所 有 的 Tab]let 
Server 基 本 信息 被 保存 在 Chubby 中 一 个 称 为 服务 器 目录 ( Server Directory ) 的 
特殊 目录 之 中 。Master 通 过 检测 这 个 目录 以 随时 获取 最 新 的 Tablet Server 信 息 ， 
包括 目前 活跃 的 Tablet Server， 以 及 每 个 Tablet Server 上 现 已 分 配 的 子 表 。 对 
于 每 个 Tablet Server ,Master 会 定期 询问 其 独占 锁 的 状态 。 如 果 Tablet Server 
的 锁 丢 失 或 者 没有 回应 ， 则 此 时 可 能 有 两 种 情况 ， 要 么 是 Chubby 出 现 了 问题 ， 要 么 
是 Tablet Server 出 现 了 问题 。 对 此 Master 首 先 自己 尝试 获取 这 个 独占 锁 ， 如 果 失 
败 说 明 是 chubby 服 务 出 现 问 题 ， 否 则 说 明 是 Tablet Server 出 现 了 问题 。Master 将 
中 止 这 个 Tablet Server 并 将 其 上 的 子 表 全 部 迁移 到 其 他 Tablet Server, 


每 个 子 表 持久 化 的 数据 包含 两 个 部 分 : 操作 日 志 以 及 SsSTable。Tablet ServerZ& 
生 故 障 时 某 些 子 表 的 一 些 更 新 操作 还 在 内 存 中 ， 需 要 通过 回放 操作 日 志 来 恢复 。 为 
了 提高 性 能 ，Tablet Server 没 有 为 它 服务 的 每 个 子 表 写 一 个 操作 日 志文 件 ， 而 是 
把 所 有 它 服务 的 子 表 的 操作 日 志 混 在 一 起 写 入 GFS， 每 条 日 志 通 过 < 表格 编号 ， 行 主 
键 ， 日 志 序 列 号 > 来 唯一 标识 。 当 基 个 Tablet Server 宕 机 后 ,Master 将 该 Tablet 
Server 服 务 的 子 表 分 配给 其 他 Tablet Server。 为 了 减少 Tablet Server 从 GFS 读 
取 的 日 志 数 据 量 ，Master 将 选择 一 些 Tablet Server 对 日 志 进 行 分 段 排序 。 排 好 序 
后 ， 同 一 个 子 表 的 操作 日 志 连 续 存 放 ，Tablet Server 恢 复 某 个 子 表 时 只 需要 读 取 
该 子 表 对 应 的 操作 日 志 即 可 。Master 需 要 尽 可 能 选择 负载 低 的 Tablet Server 执 行 


排序 ， 并 且 需 要 处 理 排序 任务 失败 的 情况 。 


Bigtable Master 启 动 时 需要 从 Chubby 中 获取 一 个 独占 锁 ， 如 果 Master 发 生 故 
障 ，Master 的 独占 锁 将 过 期 ， 管 理 程序 会 自动 指定 一 个 新 的 Master 服 务 器 ， 它 从 
Chubby 成 功 获取 独占 锁 后 可 以 继续 提供 服务 。 


6.1.5 负载 均衡 


子 表 是 Bigtable 负 载 均 衡 的 基本 单位 。Tablet Server 定 期 向 Master 汇 报 状态 ， 
当 状 态 检测 时 友 现 某 个 Tablet Server 上 的 负载 过 重 时 ， Master 会 自动 对 其 进行 负 
载 均 衡 ， 即 执行 子 表 迁移 操作 。 子 表 迁 移 分 为 两 步 : 第 一 步 请 求 原 有 的 Tablet 
Server RTE ; 第 二 步 选择 一 台 负 载 较 低 的 Tablet Server 加 载 子 表 。Master 发 
送 命令 请 求 原 有 的 Tablet Server 纪 载 子 表 ， 原 有 Tablet Server 解 除 加 在 子 表 上 
EFM, 而 新 的 Tablet Server 加 载 子 表 时 需要 首先 获取 互 矿 锁 。 如 果 原 有 
Tablet Server 发 生 故 障 ， 新 的 Tablet Server 需 要 等 待 原 有 Tablet Server 加 在 
子 表 上 的 互 斥 锁 过 期 。 子 表 迁 移 前 原 有 的 Tablet Server 会 对 其 执行 Minor 
Compaction 操 作 ， 将 内 存 中 的 更 新 操作 以 SsSTable 文 件 的 形式 转 储 到 GFs 中 ， 

此 ， 负载 均衡 带 来 的 子 表 迁 移 在 新 的 Tablet Server 上 不 需要 回放 操作 日 志 。 


子 表 迁 移 的 过 程 中 有 短暂 的 时 间 需 要 停 服务 ， 为 了 尽 可 能 减少 停 服 务 的 时 间 , 
Bigtable 内 部 采用 两 次 Minor Compaction 的 策略 。 具 体操 作 如 下 : 


1 ) 原 有 Tablet Server 对 子 表 执行 一 次 Minor Compaction 操 作 ， 操作 过 程 中 仍然 
允许 写 操作 


2 ) 停止 子 表 的 写 服务 ， 对 子 表 再 次 执行 一 次 Minor Compaction 操 作 。 由 于 第 一 次 
Minor Compaction 过 程 中 写 入 的 数据 一 般 比 较 少 ， 第 二 次 Minor Compaction 的 时 


间 会 比较 短 。 


由 于 Bigtable 负 载 均衡 的 过 程 中 会 停 一 会 读 写 服务 ， 负 和 载 均衡 策略 不 应 当 过 于 激 
进 。 负 载 均衡 涉及 的 因素 很 多 ，Tablet Server 通 过 心跳 定时 将 读 、 写 个 数 、 磁 
盘 、 内 人 存 负载 等 信息 发 送 给 Master, Master 根 据 负载 计算 公式 计算 出 需要 迁移 的 子 
表 ， 然 后 放 入 迁移 队列 中 等 待 执行 。 


6.1.6 分 裂 与 合并 


随 着 数据 不 断 写 入 和 删除 ， 某 些 子 表 可 能 太 大 ， 某 些 子 表 可 能 太 小 ， 需 要 执行 子 表 
分 裂 与 合并 操作 。 顺 序 分 布 与 哈 希 分 布 的 区 别 在 于 哈 希 分 布 往往 是 静态 的 ， 而 顺序 
分 布 是 动态 的 ， 需 要 通过 分 列 与 合并 操作 动态 调整 。 


Bigtable 每 个 子 表 的 数据 分 为 内 存 中 的 MemTable 和 GFS 中 的 多 个 SsTable， 由 于 
Bigtable 中 同一 个 子 表 只 被 一 台 Tablet Server 服 务 ， 进行 分 裂 时 比较 简单 。 
Bigtable 上 执行 分 裂 操 作 不 需要 进行 实际 的 数据 拷贝 工作 ， 只 需要 将 内 存 中 的 索引 
言 息 分 成 两 份 ， 比 如 分 裂 前 子 表 的 范围 为 ( 起 始 主 键 ， 结 束 主键 ]， 在 内 存 中 将 索引 
分 成 ( 起 始 主 键 ， 分 裂 主 键 ] 和 ( 分 裂 主 键 ， 结 束 主 键 ] 两 个 范围 。 例 如 ， 某 个 子 表 
(1，16] 的 分 裂 主键 为 5， 那 么 ， 分 裂 后 生成 的 两 个 子 表 的 数据 范围 为 : (1, 5] 和 
( 5，16]。 分 裂 以 后 两 个 子 表 各 自 写 不 同 的 MemTab1le， 等 到 执行 Compaction 操 作 
时 再 根据 分 裂 后 的 子 表 范围 生成 不 同 的 SSTable， 无 用 的 数据 自然 成 为 垃圾 被 回 
收 。 


分 裂 操作 由 Tablet Server 发 起 ， 需 要 修改 元 数据 ， 即 用 户 表 的 分 裂 需 要 修改 元 数 
据 表 ， 元 数据 表 的 分 裂 需 要 修改 根 表 。 分 裂 操 作 需 要 增加 一 个 子 表 ， 相 当 于 在 元 数 
据 表 中 增加 一 行 ， 通 过 Bigtable 的 行事 务 保证 原子 性 。 只 要 修改 元 数据 表 成 功 ， 分 


型 操作 就 算 成 功 。 分 裂 成 功 后 Tablet Server 将 向 Master 汇 报 ， 如果 出 现 Tablet 
Server 故 障 ，Master 可 能 丢失 汇报 分 裂 消息 。 新 的 Tablet Server 加 载 这 个 子 表 时 
将 友 现 它 已 经 分 裂 ， 并 通知 Master。 


合并 操作 由 Master 友 起 ， 相 比分 裂 操作 要 更 加 复杂 。 由 于 待 合并 的 两 个 子 表 可 能 被 
不 同 的 Tablet Server 加 载 ， 合 并 的 第 一 步 需要 迁移 其 中 一 个 子 表 ， 以 使 它们 在 同 
一 个 Tablet Server 上 ， 接 着 通知 Tablet Server 执 行 子 表 合 并 。 子 表 合 并 操作 具 
体 实现 时 非常 麻烦 ， 有 兴趣 的 读者 可 以 自行 思考 。 


6.2 Google Megastore 


Google Bigtable 架 构 把 可 扩展 性 基本 做 到 了 极致 ,Megastore 则 是 在 Bigtable 系 
统 之 上 提供 友好 的 数据 库 功 能 支持 ， 增 强 易 用 性 。Megastore 是 介 于 传统 的 关系 型 
数据 库 和 NosQL 之 间 的 存储 技术 ， 它 在 Google 内 部 使 用 广泛 ， 如 Google App 


Engine、 社 交 类 应 用 等 。 


互联 网 应 用 往往 可 以 根据 用 户 进行 拆 分 ， 比 如 Email 系统 、 相 册 系 统 、 广 告 投放 效果 
报表 系统 、 购 物 网 站 商品 仓 储 系 统 等 。 同 一 个 用 户 内 部 的 操作 需要 保证 强 一 致 性 , 
比如 要 求 广 持 事务 ， 多 个 用 户 乙 间 的 操作 往往 只 需要 最 终 一 致 性 ， 比 如 用 户 之 间 友 
Email 不 要 求 立 即 收 到 。 因 此 ， 可 以 根据 用 户 将 数据 拆 分 为 不 同 的 子 集 分 布 到 不 同 的 
机 器 上 。Google 进 一 步 从 互联 网 应 用 特性 中 抽取 实体 组 ( Entity Group ) 概念 ， 
从 而 实现 可 扩展 性 和 数据 库 语义 之 间 的 一 种 权衡 ， 同 时 获得 NosQL 和 RDBMSs 的 优点 。 


如 图 6-5 所 示 ， 用 户 定 义 了 User 和 Photo 两 张 表 ， 主键 分 别 为 <user_id> 和 < 
user_id,photo_id >， 每 一 个 用 户 的 所 有 数据 构成 一 个 实体 组 。 其 中 ，User 表 是 
实体 组 根 表 ，Photo 表 是 实体 组 子 表 。 实 体 组 根 表 中 的 一 行 称 为 根 实体 ( Root 


Entity) ， 对 应 Bigtab1le 存 储 系统 中 的 一 行 。 根 实体 除了 存放 用 户 数据 ， 还 需要 存 
放 Megastore 事 务 及 复制 操作 所 需 的 元 数据 ,包括 操作 日 志 。 


CREATE TABLE User | 


required int64 user id; 
required string name; 
| PRIMARY KEY (user id), ENTITY GROUP ROOT 
CREATE TABLE Photo | 
required int64 user id; 
required int32 photo id; 
required int64 time; 
required string full url; 
optional string thumbnail url; 
repeated string tag; 
|) PRIMARY KEY (user id, photo id), 
IN TABLE User, 


ENTITY GROUP KEY (user id) REFERENCES User; 








CREATE LOCAL INDEX PhotosByTime 
ON Photo (user id, time); 
CREATE GLOBAL INDEX PhotosByTag 
ON Photo (tag) STORING (thumbnail url); 





6-5 实体 组 语 ; 


表 6-1 中 有 两 个 实体 组 ， 其 中 第 一 个 实体 组 包含 前 三 行 数据 ， 第 二 个 实体 组 包含 最 后 
一 行 数据 。 第 一 行 数据 来 自 User 表 ， 是 第 一 个 实体 组 的 Root Entity ， 和 存放 编号 为 

161 的 用 户 数 据 以 及 这 个 实体 组 的 事务 及 复制 操作 元 数据 ; 第 二 行 和 第 三 行 数据 来 目 
Photo 表 ， 人 存放 用 户 的 照片 数 据 。 


表 6-1 实体 组 示例 
101，502 |] | Betty, Paris 





Bigtab1e 通 过 单行 事务 保证 根 实体 操作 的 原子 性 ， 也 融 是 况 ， 同 一 个 实体 组 的 元 数 
据 操作 是 原子 的 。 另 外 ， 同 一 个 实体 组 在 Bigtable 中 连续 存放 ， 因 此 ， 多 数 情 况 下 
同一 个 用 户 的 所 有 数据 属于 同一 个 Bigtable 子 表 ， 分布 在 同一 台 Bigtable Tablet 
Server 机 器 上 ， 从 而 提供 较 高 的 扫描 性 能 和 事务 性 能 。 当 然 ， 如 果 某 一 个 实体 组 过 
大 ， 比 如 超过 一 个 子 表 的 大 小 ， 这 样 的 实体 组 跨 多 个 子 表 ， 可 以 分 布 到 多 台 机 器 。 


6.2.1 系统 架构 


如 图 6-6 所 示 ，Megastore 系 统 由 三 个 部 分 组 成 : 


副本 A ( 读 写 ) 副本 B ( 读 写 ) 副本 C (备份 ) 







应 用 服务 带 应 用 服务 着 


Megastore 7€ FP! Yai lE 





Megastore $% F' Sil 





LRI Ai 


复制 服务 带 复制 服务 融 





日 专 十 数据 日 专 二 数据 日 专 十 数据 


6-6 Megastore 整 体 架构 


se 客户 闹 库 : 提供 Megastore 到 应 用 程序 的 接口 ， 应 用 程序 通过 客户 端 操作 
Megastore 的 实体 组 。Megastore 系 统 大 部 分 功能 集中 在 客户 端 ， 包 括 映射 
Megastore 操 作 到 Bigtable， 事 务 及 并 友 控 制 ， 基 于 Paxos 的 复制 ， 将 请 求 分 送 给 
复制 服务 器 ， 通 过 协调 者 实现 快速 读 等 。 


e 复 制服 务 器 : 接受 客户 端的 用 尸 请 求 并 转 友 到 所 在 机 房 的 Bigtable 实 例 ， 用 于 解 
决 跨 机 房 连 接 数 过 多 的 间 题 。 


e 协 调 者 : 存储 每 个 机 房 本 地 的 实体 组 是 否 处 于 最 新 状态 的 信息 ， 用 于 实现 快速 读 。 


Megastore 的 功能 主要 分 为 三 个 部 分 : 映射 Megastore 数 据 模 型 到 Bigtable， 事 务 
及 并 友 控 制 ， 跨 机 房 数据 复制 及 读 写 优化 。Megastore 首 先 解 析 用 户 通 过 客户 端 传 
入 的 SQL 请 求 ， 接 着 根据 用 户 定义 的 Megastore 数 据 模 型 将 SQL 请 求 转化 为 对 底层 
Bigtable 的 操作 。 


在 表 6-1 中 ， 假 设 用 户 ( user_id 为 161 ) 往 Photo 表 格 中 插入 photo_id 分 别 为 566 
和 582 的 两 行 数据 。 这 就 意味 着 ， 需 要 向 Bigtable 写 入 主键 ( rowkey ) 分 别 为 < 
101 , 500 > 和 < 101 , 502 > 的 两 行 数据 。 为 了 保证 写 事务 的 原子 性 ,Megastore 首 
先 会 往 该 用 户 的 根 实体 ( Bigtable 中 主键 为 < 101 > 的 数据 行 ) 写 入 操作 日 志 ， 通 
过 Bigtable 的 单行 事务 实现 操作 日 志 的 原子 性 。 接 着 ， 回 放 操 作 日 志 ，, 并 写 入 < 
101 , 500 > $0 < 101 , 502» 这 两 行 数据 。 这 两 行 数据 在 Bigtable 属 于 同一 个 版 

本 ， 客 户 端 要 么 读 到 全 部 行 ， 要 么 一 行 也 读 不 到 。 接 下 来 分 别 介 绍 事务 与 并 发 控 
制 、Paxos 数 据 复制 以 及 读 写 流程 。 


6.2.2 实体 组 


如 图 6-7， 辟 体 上 看 ， 数 据 拆 分 成 不 同 的 实体 组 ， 每 个 实体 组 内 的 操作 日 志 采 用 基于 
Paxos 的 方式 同步 到 多 个 机 房 ， 保 证 强 一 致 性 。 实 体 组 之 间 通 过 分 布 式 队列 的 方式 保 
证 最 终 一 致 性 或 者 两 阶段 提交 协议 的 方式 实现 分 布 式 事务 。 我 们 先 看 单个 集群 的 情 
况 ， 暂 时 忽略 基于 Paxos 的 复制 机 制 。 





单个 实体 组 内 
支持 ACID 事务 
一 一 > \ 
数据 划分 | 
为 多 个 实体 组 Se | 
" ^ 跨 实体 组 之 间 
最 终 一 致 性 
| 
| 
/ 
每 个 实体 组 的 数据 强 同 
步 复制 到 多 个 数据 中 心 
.实体 组 的 操作 
日 志和 数据 存 
储 在 Bigtable 


6-7 Megastore 实 体 组 


实体 ( Bigtable 一 行 ) 






跨 实 体 组 事务 通过 
两 阶段 提交 协议 保证 


通过 异步 队列 支持 
跨 实 体 组 最 终 一 致 性 





图 6-7 ( 续 ) 


e 单 集群 实体 组 内 部 : 同一 个 实体 组 内 部 支持 满足 ACID 特性 的 事务 。 数 据 库 系 统 事 
务实 现时 总 是 会 提 到 REDO 日 志和 UNDO 日 志 ， 在 Megastore 系 统 中 通过 REDO 日 志 的 方 
式 实 现 事 务 。 同 一 个 实体 组 的 REDO 日 志 都 写 到 这 个 实体 组 的 根 实体 中 ， 对 应 
Bigtable 系 统 中 的 一 行 ， 从 而 保证 REDO 日 志 操 作 的 原子 性 。 客 户 端 写 完 REDO 日 志 
后 ， 事务 操作 成 功 ， 接 下 来 的 事情 只 是 回放 REDO 日 志 。 如 果 回 放 REDO 日 志 失 败 ， 比 
如 某 些 行 所 在 的 子 表 服务 器 宕 机 ， 事 务 操作 也 可 成 功 返 回 客户 端 。 后 续 的 读 操作 如 
果 要 求 读 取 最 新 的 数据 ， 需 要 先 回放 REDO 日 志 。 


e 单 集群 实体 组 之 间 : 实体 组 之 间 一 般 采 用 分 布 式 队列 的 方式 提供 最 终 一 致 性 ， 子 表 
服务 器 上 有 定时 扫 摘 绪 程 ， 友 和 送 跨 实体 组 的 操作 到 目的 实体 组 。 如 果 需 要 保证 多 个 
实体 组 乙 间 的 强 一 致 性 ， 即 实现 分 布 式 事务 ， 只 能 通过 两 阶段 提交 协议 加 锁 协 调 。 


6.2.3 并 上 友 控制 


(1) 读 事务 


Megastore 提 供 了 三 种 读 取 模式 : 最 新 读 取 ( current read). 、 快 照 读 取 
(snapshot read). 、 非 一 致 性 读 取 ( inconsistent read), 。 其 中 ， 最 新 读 取 和 
快照 读 取 总 是 在 单个 实体 组 内 完成 的 。 在 开始 某 次 最 新 读 取 之 前 ， 需 要 确保 所 有 已 
提交 的 写 操作 已 经 全 部 生效 ， 然 后 读 取 最 后 一 个 版 本 的 数据 。 对 于 快照 读 取 ， 系 统 
取出 已 知 的 最 后 一 个 完整 提交 的 事务 版 本 并 读 取 该 版 本 的 数据 。 与 最 新 读 取 不 同 的 
是 ， 快 照 读 取 的 时 候 可 能 有 部 分 事务 已 经 提交 但 没有 生效 ( REDO 日 志 同 步 成 功 但 没 
有 回放 完成 ) 。 最 新 读 取 和 快照 读 取 利用 了 Bigtable 存 储 多 版 本 数据 的 特性 ， 保 证 
不 会 读 到 未 提交 的 事务 。 非 一 怪 性 读 取 忽略 日 志 的 状态 而 直接 读 取 Bigtable 内 存 中 
最 新 的 值 ， 可 能 读 到 不 完整 的 事务 。 

( 2 ) 写 事务 

Megastore 事 务 中 的 写 操作 采用 了 预 写 式 日 志 ( Write-ahead 日 志 或 REDO 日 志 ) , 
也 就 是 品 ， 只 有 当 所 有 的 操作 都 在 日 志 中 记录 下 来 后 ， 写 操作 才 会 对 数据 执行 修 
改 。 一 个 写 事 务 总 是 开始 于 一 个 最 新 读 取 ， 以 便于 确认 下 一 个 可 用 的 日 志 位 置 , 将 
用 户 操作 聚集 到 日 志 缓 冲 区 ， 分 配 一 个 更 高 的 时 间 戳 ， 最 后 通过 Paxos 复 制 协议 提交 
到 下 一 个 可 用 的 日 志 位 置 。Paxos 协 议 使 用 了 乐观 锁 的 机 制 : 尽管 可 能 有 多 个 写 操作 
同时 试图 写 同 一 个 日 志 位 置 ， 但 最 后 只 有 一 个 会 成 功 。 其 他 失败 的 写 操作 都 会 观察 
到 成 功 的 写 操作 ， 然 后 中 止 并 重 试 。 

写 事务 流 程 大致 如 下 : 

1 ) 读 取 : 获取 最 后 一 次 提交 的 事务 的 时 间 戳 和 日 志 位 置 ， 


2) 应 用 逻辑 : 从 Bigtable 读 取 并 且 将 写 操作 聚集 到 日 志 缓 冲 区 中 ; 


3 ) 提交 : 将 缓冲 区 中 的 操作 日 志 追 加 到 多 个 机 房 的 Bigtable 集 群 ， 通 过 Paxos 协 议 
保证 一 致 性 ; 


4 ) 生效 : 应 用 操作 日 志 ， 更 新 Bigtable 中 的 实体 和 索引 ; 

5 ) 清理 : 删除 不 再 需要 的 数据 。 

假如 有 两 个 先 读 后 写 ( read-modify-write ) 事务 T1 和 T2， 其 中 : 
T1:Read a;Read b;Set c=a+b; 

T2:Read a;Read d;Set c=a+d; 


假设 事务 T1 和 T2 对 同一 个 实体 组 并 友 执 行 ，T1 执 行 时 读 取 a 和 b,T2 读 取 a 和 d , 接着 
T1 和 T2 同 时 提交 。Paxos 协 议 保证 T1 和 T2 中 有 且 只 有 一 个 事务 提交 成 功 ， 假 如 T1 提 
交 成功 ，T2 将 重新 读 取 a 和 d 后 再 次 通过 Paxos 协 议 提交 。 对 同一 个 实体 组 的 多 个 事 
务 被 捉 行 化 ,Megastore 之 所 以 能 提供 可 捉 行 化 的 隔离 级 别 ， 得 益 于 定义 的 实体 组 
数据 模型 ， 由 于 同一 个 实体 组 同时 进行 的 更 新 往往 很 少 ， 事务 ;冲突 导致 重 试 的 概率 
很 低 。 


6.2.4 复制 


对 于 多 个 集群 之 间 的 操作 日 志 同 步 ，Megastore 系 统 采 用 的 是 基于 Paxos 的 复制 协议 
机 制 ， 对 于 普通 的 Master-Slave 强 同步 机 制 ,Master 宕 机 后 ,Slave 如 果 需 要 切换 
为 Master 继 续 提供 服务 需要 首先 确认 Master 宕 机 ， 检 测 Master 宪 机 这 段 时 间 是 需 
要 停止 写 服 务 的 ， 否 则 将 造成 数据 不 一 致 。 基 于 Paxos 的 复制 协议 机 制 主要 用 来 解决 
机 器 宕 机 时 停止 写 服 务 的 问题 ，Paxos 协 议 允 许 在 只 是 怀疑 Master 宕 机 的 情况 下 由 
Slave 发 起 修改 操作 ， 虽然 可 能 出 现 多 点 同时 修改 的 情况 ， 但 Paxos 协 议 将 采用 投票 


的 机 制 保证 只 有 一 个 节点 的 修改 操作 成 功 。 这 种 方式 对 服务 的 影响 更 小 ， 系 统 可 用 
性 更 好 。 


Megastore 通 过 Paxos 协 议 将 数据 复制 到 多 个 数据 中 心 ， 而 且 机 器 故障 自动 切换 不 停 
写 服 务 ， 保 证 了 高 可 靠 性 和 高 可 用 性 。 当 然 ，Megastore 部 署 时 往往 会 要 求 将 写 操 
作 强 同步 到 多 个 机 房 ， 甚 至 是 不 同 地域 的 多 个 机 房 ， 因 此 ， 延 时 比较 长 ， 一 般 为 几 
十 毫秒 甚至 上 百 毫 秒 。 


6.2.5 索引 
Megastore 数 据 模型 中 有 一 个 非常 重要 的 概念 : 索引 ( Index) ， 分 为 两 大 类 : 


e 局 部 索引 (local index) : 局 部 索引 是 单个 实体 组 内 部 的 ， 用 于 加 速 单个 实体 组 
内 部 的 查找 。 局 部 索引 属于 某 个 实体 组 ， 实体 组 内 数据 和 局 部 索引 的 更 新 操作 是 原 
子 的 。 在 某 个 实体 组 上 执行 事务 操作 时 先 记 录 REDO 日 志 ， 回放 REDO 日 志 时 原子 地 更 
新 实体 组 内 部 的 数据 和 局 部 索引 。 图 6-5 中 的 PhotosByTime 就 是 一 个 局 部 索引 ， 映 
射 到 Bigtable 相 当 于 每 个 实体 组 中 增加 一 些 主键 为 ( user_id,time,photo_id ) 
的 行 。 


e 全 局 索引 ( global index) : 全 局 索引 横 跨 多 个 实体 组 。 图 6-5 中 的 
PhotosByTag 就 是 一 个 全 局 索引 ， 了 映射 到 Bigtab1le 是 一 张 新 的 索引 表 ， 主 键 为 
(tag,user id,photo id) ， 即 索引 字段 +Photo 数 据 表 主键 。 


除了 这 两 大 类 索引 外 ，Megastore 还 提供 了 一 些 额 外 的 率 引 特性 ， 主 要 包含 以 下 几 


qu 


eSTORING 子 句 : 通过 在 索引 中 增加 STORING 字 句 ， 系 统 可 以 在 索引 中 隐 余 一 些 音 用 


的 列 字 段 ， 从 而 不 需要 查询 基本 表 ， WORAUF. TUSSCETRBJIRISR SER S 2A 
据 量 变 得 更 大 。PhotosByTag 索 引 中 多余 存储 了 thumbnail_url， 根据 tag 查 询 
photo 的 thumbnail_ur1 时 只 需要 一 次 读 取 索 引 表 即 可 。 


e 吕 重复 索引 : Megastore 数 据 某 些 中 某 些 字 段 是 可 重复 的 ， 相 应 的 索引 就 是 可 重复 
索引 。 这 就 意味 这 ， 一行 数据 可 能 对 应 多 行 过 3 引 。PhotosByTag 是 重复 索引 ，, 每 个 
photo 可 能 有 不 同 tag， 分 别 对 应 不 同 的 索引 行 。 


6.2.6 协调 者 
(1) 快速 读 


Paxos 协 议 要 求 读 取 最 新 的 数据 至 少 需要 经 过 一 半 以 上 的 副本 ， 然 而 ， 如 果 不 出 现 故 
障 ， 每 个 副本 基本 都 是 最 新 的 。 也 融 是 况 ， 能 够 利用 本 地 读 取 (local reads ) SC 
现 快速 读 ， 减 少 读 取 延 时 和 跨 机 房 操 作 。Megastore 引 入 协调 者 来 记录 每 个 本 机 房 
Bigtable 实 例 中 的 每 个 实体 组 的 数据 是 否 最 新 。 如 果实 体 组 的 数据 最 新 ， 读 取 操 作 
只 需要 本 地 读 取 ， 没 有 跨 机 房 操 作 。 实 体 组 有 更 新 操作 时 ， 写 操作 需要 将 协调 者 记 
录 的 实体 组 状态 更 新 为 无 效 ， 如 果 某 个 机 房 的 Bigtable 集 群 写 入 失败 ， 需 要 首先 使 
得 相应 的 协调 者 记录 的 实体 组 状态 失效 以 后 写 操 作 才 可 以 成 功 返 回 客 尸 端 。 


( 2) 协调 者 的 可 用 性 


每 次 写 操 作 都 需要 涉及 协调 者 ， 因 此 协调 者 出 现 故 障 将 会 导致 系统 不 可 用 。 当 协调 
者 因为 网 络 或 者 主机 故障 等 原因 导致 不 可 用 时 ， 需 要 检测 到 协调 者 故障 并 将 它 隔 


ar 


Ao 


Megastore 使 用 了 chubby 锁 服务 ， 协 调 者 在 局 动 时 从 数据 中 心 获 取 Chubby 锁 。 为 了 


处 理 请 求 ， 协 调 者 必须 持 有 Chubby 锁 。 一 旦 因为 出 现 问题 导致 锁 失 效 ， 协 调 者 就 会 
恢复 到 一 个 默认 的 保守 状态 : 认为 所 有 它 所 能 看 见 的 实体 组 都 是 失效 的 。 如 果 协 调 
者 的 锁 失效 ， 写 操作 可 以 安全 地 将 它 忽 略 ; 然而 ， 从 协调 者 不 可 用 到 锁 失 效 有 一 个 
短暂 ( 几 十 秒 ) 的 Chubby 锁 过 期 时 间 ， 这 个 时 间 段 写 操作 都 会 失败 。 所 有 的 写 入 者 
都 必须 等 待 协调 者 的 Chubby 锁 过 期 。 


( 3 ) 竞争 条 件 


除了 可 用 性 问题 ， 对 于 协调 者 的 读 写 协议 必须 满足 一 系列 的 竞争 条 件 。 失 效 操作 总 
是 安全 的 ， 但 是 生效 操作 必须 谨慎 处 理 。 在 寞 步 网 络 环境 中 ， 消 息 可 能 乱 序 到 达 协 
调 者。 每 条 生效 和 失效 消息 都 带 有 日 志 位 置信 息 。 如 果 协 调 者 先 收 到 较 晚 的 失效 操 
作 再 收 到 较 早 的 生效 操作 ， 生 效 操作 将 被 忽略 。 


协调 者 从 局 动 到 退出 为 一 个 生命 周期 ， 每 个 生命 周期 用 一 个 唯一 的 序号 标识 。 生 效 
操作 只 人 允许 在 最 近 一 次 对 协调 者 进行 读 取 操作 以 来 序号 没有 友 生 变化 的 情况 下 修改 
协调 者 的 状态 。 


6.2.7 读 取 流程 


Megastore 的 读 取 流 程 如 图 6- 8 所 示 。Megastore 最 新 读 取 流 程 如 下 。 






查询 数据 


6-8 Megastore 读 取 流 程 
1 ) 本 地 查询 。 查 询 本 地 副本 的 协调 者 来 决定 这 个 实体 组 上 数据 是 否 已 经 是 最 新 的 。 


2) 友 现 位 置 。 确 认 一 个 最 高 的 已 经 提交 的 操作 日 志 位 置 ， 并 选择 最 新 的 副本 ， 具 体 
操作 如 下 : 


e 本 地 读 取 (Local Read) : 如 果 本 地 查询 确认 本 地 副本 已 经 是 最 新 的 ， 直 接 读 取 
本 地 副本 已 经 提交 的 最 高 日 志 位 置 和 相应 的 时 间 戳 。 这 实际 上 就 是 前 面 提 到 的 快速 
读 。 

e 多 数 派 读 取 (Majority Read) : 如 果 本 地 副本 不 是 最 新 的 ( 或 者 本 地 查询 、 本 地 


读 取 超 时 ) ， 从 多 数 派 副本 中 读 取 最 大 的 日 志 位 置 ， 然后 从 中 选取 一 个 响应 最 快 或 
者 最 新 的 副本 ， 并 不 一 定 是 本 地 副本 。 


3) 追赶 。 一 旦 某 个 副本 被 选中 ， 融 采取 如 下 方式 使 其 追赶 到 已 知 的 最 大 位 置 处 : 


e 获 取 操 作 日 志 : 对 于 所 选 副本 中 所 有 不 知道 Paxos 共 识 值 的 日 志 位 置 ， 从 其 他 副本 
中 读 取 。 对 于 所 有 不 确定 共识 值 的 日 志 位 置 ， 利 用 Paxos 友 起 一 次 无 操作 的 写 

( Paxos 中 的 no-op ) 。Paxos 协 议 将 会 促使 大 多 数 副本 达成 一 个 共识 值 : 要 么 是 无 
操作 写 ， 和 要么 是 以 前 已 提交 的 一 次 写 操作 。 


e 应 用 操作 日 志 : 顺序 地 应 用 所 有 已 经 提交 但 还 没有 生效 的 操作 日 志 ， 更 新 实体 组 的 
数据 和 率 引 信息 。 


4 ) 使 实体 组 生效 。 如 果 选 取 了 本 地 副本 且 原 来 不 是 最 新 的 ， 需 要 上 友 送 一 个 生效 消息 
以 通知 协调 者 本 地 副本 中 这 次 读 取 的 实体 组 已 经 最 新 。 和 后 效 消息 不 需要 等 待 应 答 ， 
如 果 请 求 失败 ， 下 一 个 读 取 操 作 会 重 试 。 


5) 查询 数据 。 在 所 选 副 本 中 通过 日 志 中 记录 的 时 间 截 读 取 指定 版 本 数据 。 如 果 所 选 
副本 不 可 用 了 ， 重 新 选取 一 个 蔡 代 副本 ， 执 行 追赶 操作 ， 然 后 从 中 读 取 数据 。 


6.2.8 写 入 流程 
Megastore 的 写 入 流程 如 图 6-9 所 示 。 


执行 完 一 次 完整 的 读 操作 之 后 ， 下 一 个 可 用 的 日 志 位 置 ， 最 后 一 次 写 操作 的 时 间 
戳 ， 以 及 下 一 次 的 主 副 本 ( Leader ) 都 知道 了 。 在 提交 时 刻 所 有 的 修改 操作 都 被 打 
包 ，, 同时 还 包含 一 个 时 间 截 、 下 一 次 主 副 本 提名 ， 作 为 提议 的 下 一 个 日 志 位 置 的 共 
识 值 。 如 果 该 值 被 大 多 数 副 本 通过 ， 它 将 被 应 用 到 所 有 的 副本 中 ， 否 则 整个 事务 将 
中 止 且 从 读 操 作 开 始 重 试 。 
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6-9 Megastore 写 入 流程 
写 入 过 程 包括 如 下 几 个 步骤 : 


1) 请 求 主 副本 接受 : 请 求 主 副本 将 提议 的 共识 值 ( 写 事务 的 操作 日 志 ) 作为 6 号 提 
议 。 如 果 成 功 ， 跳 至 步骤 3 ) 。 


2 ) 准备 : 对 于 所 有 的 副本 ， 运 行 Paxos 协 议 准 备 阶段 ， 即 在 当前 的 日 志 位 置 上 使 用 
一 个 比 以 前 所 有 提议 都 更 高 的 提议 号 进行 提议 。 将 提议 的 共识 值 蔡 换 为 已 知 的 拥有 
最 高 提议 号 的 副本 的 提议 值 。 


3 ) 接受 : 请 求 剩余 的 副本 接受 主 副本 的 提议 ， 如 果 大 多 数 副本 拒绝 这 个 值 ， 返回 步 
又 2 ) 。Paxos 协 议 大 多 数 情况 下 主 副 本 不 会 变化 ， 可 以 忽略 准备 阶段 直接 执行 这 个 


阶段 ， 这 就 是 Megastore 中 的 快速 写 。 


4 ) 使 实体 组 失效 : 如 果 某 些 副 本 不 接受 多 数 派 达成 的 共识 值 ， 将 协调 者 记录 的 实体 
组 状态 标记 为 失效 。 协 调 者 失效 操作 返回 前 写 操 作 不 能 返回 客户 端 ， 从 而 防止 用 户 
的 最 新 读 取得 到 不 正确 的 结果 。 


5 ) 应 用 操作 日 志 : 将 共识 值 在 尽 可 能 多 的 副本 上 应 用 生效 ， 更 新 实体 组 的 数据 和 索 


5 | 信息 。 
6.2.9 讨论 


分 布 式 仓储 系统 有 两 个 目标 : 一 个 是 可 扩展 性 ， 最 终 目 标 是 线性 可 扩展 ; 另外 一 个 
是 功能 ， 最终 目标 是 支持 全 功能 SQL。Megastore 是 一 个 介 于 传统 的 关系 型 数据 库 和 
分 布 式 NoSQL 系 统 之 间 的 存储 系统 ， 融 合 了 SQL 和 NoSQL 两 者 的 优势 。 


Megastore 的 主要 创新 点 包括 : 


e 提 出 实体 组 的 数据 模型 。 通 过 实体 组 划分 数据 ， 实 体 组 内 部 维持 关系 数据 库 的 
ACID 特性 ， 实 体 组 之 间 维 持 类 似 NosQL 的 弱 一 致 性 ， 有 效 地 融合 了 SQL 和 NoSsQL 两 者 
的 优势 。 另 外 ， 实 体 组 的 定义 方式 也 在 很 大 程度 上 规避 了 影响 性 能 和 可 扩展 性 的 
Join 操 作 。 

e 通 过 Paxos 协 议 同时 保证 高 可 靠 性 和 高 可 用 性 ， 既 把 数据 强 同步 到 多 个 机 房 ， 又 做 
到 发 生 故 障 时 自动 切换 不 影响 读 写 服务 。 另 外 ， 通 过 协调 者 和 优化 Paxos 协 议 使 得 读 
写 操作 都 比较 高 效 。 

当然 ，Megastore 也 有 一 些 问题 ， 其 中 一 些 问题 来 源 于 Bigtable， 比 如 单 副本 服 
务 ，SSD 文 持 较 弱 导 致 Negastore 人 在 线 实时 服务 能 力 上 有 一 定 的 改进 空间 ， 整 体 架 构 


过 于 复杂 ， 协 调 者 对 读 写 服务 和 运 维 复杂 度 的 影响 。 因 此 ，Goog1e 后 续 叉 开 发 了 一 
套 革 命 性 的 Spanner 架 构 用 于 解决 这 些 问题 。 


6.3 Windows Azure Storage 


Windows Azure Storage ( WAS ) 是 微软 开 友 的 云 存储 系统 ， 包 括 三 种 数据 存储 服 
$$ : Windows Azure Blob, Windows Azure Table, Windows Azure Queue, = 
种 数据 存储 服务 共享 一 套 底 层 架 构 ， 在 微软 内 部 广泛 用 于 社会 化 网 络 、 视 频 、 游 
戏 、Bing 搜 索 等 业务。 另外 ， 在 微软 外 部 也 有 成 干 上 万 个 云 仓储 客户 。 


6.3.1 整体 架构 


WAS 部 署 企 不 同 地 域 的 多 个 数据 中 心 ， 依 赖 底 层 的 windows Azure 结 构 控制 器 
(Fabric Controller ) 管理 硬件 资源 。 结 构 控 制 器 的 功能 包括 节点 管理 ， 网络 配 
置 ， 健 康 检查 ， 服 务 启动 ， 关 闭 ， 部 署 和 升级 。 另 外 ，WAS 还 通过 请 求 结构 控制 器 获 
取 网 络 拓扑 信息 ， 集 群 物理 部 署 以 及 存储 节点 硬件 配置 信息 。 


如 图 6-16 所 示 ，WAS 主 要 分 为 两 个 部 分 : 定位 服务 (Location Service,Ls ) 和 和 存 


储 区 (Storage Stamp). 
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e 定 位 服务 的 功能 包括 : 管理 所 有 的 存储 区 ， 管理 用 户 到 存储 区 之 间 的 映射 关系 ， 收 
集 存储 区 的 负载 信息 ， 分 配 新 用 户 到 负载 较 轻 的 存储 区 。LS 服 务 自身 也 分 布 在 两 个 
不 同 的 地 域 以 实现 高 可 用 。LS 需 要 通过 DNS 服 务 来 使 得 每 个 账户 的 请 求 定位 到 所 属 存 
储 区 。 


e 每 个 存储 区 是 一 个 集群 ， 一 般 由 16 ~ 26 个 机 架 组 成 ， 每 个 机 架 有 18 个 存储 节点 ， 
提供 大 约 2PB 存 储 容量 。 下 一 步 的 计划 是 扩大 存储 区 规模 ， 使 得 每 个 存储 区 能 够 容纳 
38PB 原 始 数据 。 存 储 区 分 为 三 层 : 文件 流 层 (Stream Layer ) 、 分 区 层 
(Partition Layer) 以 及 前 辛 层 (Front-End Layer), 


e 文 件 流 层 : Google GFSs 类 似 ， 提 供 分 布 式 文件 存储 。WAs 中 文件 称 为 流 
(streams) ， 文 件 中 的 Chunk 称 为 范围 ( extent ) 。 文 件 流 层 一 般 不 直接 对 外 服 


务 ， 需 要 通过 服务 分 区 层 访问 。 


e 分 区 层 : 与 Google Bigtable 类 似 ， 将 对 象 划分 到 不 同 的 分 区 以 被 不 同 的 分 区 服 
务 器 (Partition Server) 服务 ， 分 区 服务 器 将 对 象 持 久 化 到 文件 流 层 。 


ee 前端 层 : 前 端 层 包括 一 系列 无 状态 的 web 服务 器 ， 这 些 Web 服 务 器 完成 权限 验证 等 
功能 并 根据 请 求 的 分 区 名 (Partition Name ) 将 请 求 转 友 到 不 同 的 分 区 服务 器 。 分 
区 映射 表 ( Partition Map) 用 来 决定 应 该 将 请 求 转 化 到 哪个 分 区 服务 器 ， 前 端 服 
务 器 一 般 缓 仔 了 此 表 从 而 减少 一 次 网 络 请 求 。 


另外 ，WAS 包 含 两 种 复制 方式 : 

se 存储 区 内 复制 ( Intra-Stamp Replication) : 文件 流 层 实现 ， 同 一 个 extent 的 
多 个 副本 之 间 的 复制 模式 为 强 同步 ， 每 个 成 功 的 写 操 作 必 须 保证 所 有 副本 都 同步 成 

功 ， 用 来 实现 强 一 致 性 。 

e 跨 存储 区 复制 ( Inter-Stamp Replication) : 服务 分 区 层 实 现 ， 通 过 后 台 线 程 
异步 复制 到 不 同 的 存储 区 ， 用 来 实现 异地 容 灾 。 

6.3.2 文件 流 层 


文件 流 层 提 供 内 部 接口 供 服务 分 区 层 使 用 。 它 提供 类 似 文件 系统 的 命名 空间 和 API , 
但 所 有 的 写 操作 只 能 是 追加 ， 支持 的 接口 包括 : 打开 & 关 闭 文件 、 改 名 、 读 取 以 及 
追加 到 文件 。 文 件 流 层 中 的 文件 称 为 流 ， 每 个 流 包含 一 系列 的 extent。 每 个 extent 
由 一 连 串 的 block 组 成 。 


如 图 6-11 所 示 ， 文 件 流 “//foo” 包 含 四 个 extent (E1, E2, E3, E4) 。 每 个 
extent 包 含 一 连 串 追加 到 它 的 block。 其 中 ，E1、E2 和 E3 是 已 经 加 封 的 
(sealed) ， 这 就 意味 着 不 允许 再 对 它们 追加 数据 ; E4 是 未 加 封 的 ( unsealed ) , 
允许 对 它 执 行 追加 操作 。 





extent E1- 加 封 extent E2- 加 封 extent E3- 加 封 extent E4- 未 加 封 
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block 是 数据 读 写 的 最 小 单位 ， 每 个 block 最 大 不 超过 4MB。 文 件 流 层 对 每 个 block 
计算 检验 和 ( checksum ) 。 读 取 操 作 总 是 给 定 某 个 block 的 边界 ， 然 后 一 次 性 连续 
读 取 一 个 或 者 多 个 完整 的 block 数 据 ; 写 入 操作 闫 成 一 个 或 者 多 个 block 写 入 到 系 
统 。WAS 中 的 block 与 GFS 中 的 记录 (record ) 概念 是 一 致 的 。 


extent 是 文件 流 层 数 据 复 制 ， 负载 均 稀 的 基本 单位 ， 每 个 存储 区 默认 对 每 个 extent 
保留 三 个 副本 ， 每 个 extent 的 默认 大 小 为 16B。 如 果 存 储 小 对 象 ， 多 个 小 对 象 可 能 
共享 同一 个 extent ; 如 果 存 储 大 对 象 ， 比 如 几 GB 甚 至 TB， 对象 被 切 分 为 多 个 
extent。WAS 中 的 extent 与 GFS 中 的 chunk 概 念 是 一 致 的 。 


stream 用 于 文件 流 层 对 外 接口 ， 每 个 stream 在 层级 命名 空间 中 有 一 个 名 字 。WAS 中 
的 stream 与 GFS 中 的 file 概 念 是 一 致 的 。 
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如 图 6-12 所 示 ， 文 件 流 层 由 三 个 部 分 组 成 : 
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e 流 管理 器 (Stream Manager, SM ) 


流 管理 器 维护 了 文件 流 层 的 元 数据 ， 包 括 文件 流 的 命名 空间 ， 文 件 流 到 extent 之 间 
的 映射 关系 ，extent 所 在 的 存储 节点 信息 。 另 外 , 监控 extent 存 储 节点 , 
负责 整个 系统 的 全 局 控制 ， 如 extent 复 制 ， 负 载 均衡 ， 垃 圾 回收 无 用 的 extent， 等 
等 。 流 管理 器 会 定期 通过 心跳 的 方式 轮 询 extent 存 储 节点 。 流 管理 器 自身 通过 
Paxos 协 议 实现 高 可 用 性 。 


eextent 存 储 节 点 (Extent Node,EN ) 


extent 存 储 节点 实际 存储 每 个 extent 的 副本 数据 。 每 个 extent 单 独 存 储 成 一 个 磁 
盘 文件 ， 这 个 文件 中 包含 extent 中 所 有 block 的 数据 及 checksum， 以 及 针对 每 个 
block 的 索引 信息 。extent 人 存储 节点 之 间 互 相通 信 拷 贝 客户 端 妃 加 的 数据 ， 另 外 ， 
extent 存 储 节点 还 需要 接受 流 管 理 器 的 命令 ， 如 创建 extent 副 本 ， 垃 圾 回收 指定 


extent ， 等 等 。 
e 客 户 端 库 (Partition Layer Client) 


客户 端 库 是 文件 流 层 提 供给 上 层 应 用 ( 即 分 区 层 ) 的 访问 接口 ， 它 是 一 组 专用 接 
口 ， 不 遵守 POSIX 规 范 ， 以 库 文件 的 形式 提供 。 分 区 层 访问 文件 流 层 时 ， 首 先 访问 流 


管理 器 节点 ， 获 取 与 之 进行 交互 的 extent 存 储 节 点 信息 ， 然 后 直接 访问 这 些 存 储 节 
Fà ， 完 成 数据 存 取 工 作 。 


2 .复制 及 一 致 性 


WAs 中 的 流 文件 只 允许 追加 ， 不 允许 更 改 。 追 加 操作 是 原子 的 ， 数 据 追 加 以 数据 块 

( block ) 为 单位 ， 多 个 数据 块 可 以 由 客户 端 凑 成 一 个 缓冲 区 一 次 性 提交 到 文件 流 层 
的 服务 端 ， 保 证 原子 性 。 与 6FS 一 样 ， 客 户 端 追加 数据 块 可 能 失败 需要 重 试 ， 从 而 产 
生 重 复 记 录 ， 分 区 层 需要 处 理 这 种 情况 。 


分 区 层 通 过 两 种 方式 处 理 重复 记录 : 对 于 元 数据 ( metadata ) 和 操作 日 志 流 
(commit log streams ) ， 所 有 的 数据 都 有 一 个 唯一 的 事务 编号 (transaction 
sequence) ， 顺 序 读 取 时 忽略 编号 相同 的 事务 ; 对 于 每 个 表格 中 的 行 数据 流 ( now 
data streams) ， 只 有 最 后 一 个 追加 成 功 的 数据 块 才 会 被 索 3 引 ， 因此 先前 妃 加 失败 
的 数据 块 不 会 被 分 区 层 读 取 a 到， 将 来 也 会 被 系统 的 垃圾 回收 机 制 删除 。 


如 图 6-12，WAS 追 加 流程 如 下 : 


1) 如 果 分 区 层 客户 端 没 有 缓存 当前 extent 信 息 ， 例 如 追加 到 新 的 流 文件 或 者 上 一 
个 extent 已 经 颖 合 ( sealed) ， 客 户 端 请 求 sM 创 建 一 个 新 的 extent ; 


2) SM 根 据 一 定 的 策略 ， 如 存储 节点 负载 ， 机 架 位 置 等 ， 分 配 一 定数 量 ( 默认 值 为 
3 ) 的 extent 副 本 到 EN。 其 中 一 个 extent 副 本 为 主 副 本 ， 人 允许 客户 端 写 操作 ， 其 他 
副本 为 备 副 本 ， 只 人 允许 接收 主 副本 同步 的 数据 。Extent 写 入 过 程 中 主 副本 维持 不 
变 ， 因 此 ，WAS 不 需要 类 似 GFs 中 的 租约 机 制 ， 大 大 简化 了 追加 流程 ; 

3 ) 客户 端 写 请 求 发 送 到 主 副 本 。 主 副本 将 执行 如 下 操作 : a ) 决定 追加 的 数据 块 在 
extent 中 的 位 置 ; b ) EF : 如 果 有 多 个 客户 端 往 同 一 个 extent 并 发 退 加 ， 主 副本 
需要 确定 这 些 追加 操作 的 顺序 ; c ) 将 数据 块 写 入 主 副本 自身 ; 


4 ) 主 副 本 把 待 追加 数据 发 给 某 个 备 副本 ， 备 副本 接着 转 友 给 其 他 备 副 本 。 每 一 个 备 
副本 会 根据 主 副本 确定 的 顺序 执行 写 操作 ; 


5 ) 备 副 本 副本 写成 功 后 应 答 主 副本 ; 
6 ) 如 果 所 有 的 副本 都 应 答 成 功 ， 主 副本 应 答 客 户 端 追加 操作 成 功 ; 


追加 过 程 中 如 果 某 个 副本 出 现 故 障 ， 客 户 端 追加 请 求 返 回 失 败 ， 接 着 客户 端 将 联系 
SM SM 首先 会 颖 合 失败 的 extent， 接 着 创建 一 个 新 的 extent 用 来 提供 追加 操作 。 
SM 处 理 副本 故障 的 平均 时 间 在 26ms 左 右 ， 新 的 extent 创 建 完 成 后 客户 端 追加 操作 可 
以 继续 ， 整 体 影响 不 大 。 


每 个 extent 副 本 都 维护 了 已 经 成 功 提交 的 数据 长 度 (commit length) ， 如 果 出 现 
异常 ， 各 个 副本 当前 的 长 度 可 能 不 一 致 。SM 颖 合 extent 时 首先 请 求 所 有 的 副本 获取 


HAKE , 如果 副本 之 间 不 一 致 ，SM 将 选择 最 小 的 长 度 值 作为 颖 合 后 的 长 度 。 如 果 
缝合 操作 的 过 程 中 某 个 副本 所 在 的 节点 出 现 故障 ， 缝 合 操作 仍然 能 够 成 功 执行 ， 等 
到 节点 重启 后 ，SM 将 强制 该 节点 从 extent 的 其 他 副本 同步 数据 。 


文件 流 层 保证 如 下 两 点 : 
e 只 要 记录 被 追加 并 成 功 响应 客户 端 ， 从 任何 一 个 副本 都 能 够 读 到 相同 的 数据 ; 


e 即 使 追加 过 程 出 现 故 障 ， 一 旦 extent 被 颖 合 ， 从 任何 一 个 被 颖 合 的 副本 都 能 够 读 
到 相同 的 内 容 。 


3 .存储 优化 


extent 存 储 节点 面临 两 个 问题 : 如 何 保证 磁盘 调度 公平 性 以 及 避免 磁盘 随机 写 操 
作 。 


很 多 硬盘 通过 牺牲 公平 性 来 最 大 限度 地 提高 吞吐 量 ， 这 些 磁盘 优先 执行 大 块 顺序 读 
写 操作 。 而 文件 流 层 中 既 有 大 块 顺 序 读 写 操作 ， 也 有 大 量 的 随机 读 取 操 作 。 随 机 读 
写 操作 可 能 被 大 块 顺序 读 写 操作 阻塞 ， 在 某 些 磁盘 上 甚至 观察 到 随机 I0 被 阻塞 高 达 
236ems 的 情况 。 为 此 ，WAS 改 进 了 IO 调 度 策 略 ， 如 果 存 储 节点 上 某 个 磁盘 当前 已 友 
出 请 求 的 期 望 完 成 时 间 超 过 16ems 或 者 最 近 一 段 时 间 内 录 个 请 求 的 啊 应 时 间 超 过 
266ms， 避 免 将 新 的 I0 请 求 调 厦 到 该 磁盘 。 这 种 策略 适当 牺牲 了 磁盘 的 吞吐 量 ， 但 
是 保证 公平 性 。 


文件 流 层 客 户 端 追加 操作 应 答 成 功 要 求 所 有 的 副本 都 将 数据 持久 化 到 磁盘 。 这 种 策 
略 提高 了 系统 的 可 靠 性 ， 但 增加 了 写 操作 延 时 。 每 个 存储 节点 上 有 很 多 extent， 这 
些 extent 被 大 量 分 区 层 上 的 客户 端 并 发 退 加 ， 如 果 每 次 追加 都 需要 将 extent 文 件 刷 


到 磁盘 中 ， 将 导致 大 量 的 随机 写 。 为 了 减少 随机 写 ， 人 存储 节点 采用 单独 的 日 志 盘 

( journal drive ) 顺序 保 仔 节点 上 所 有 extent 的 追加 数据 ， 奶 加 操作 分 为 两 步 : 
a ) 将 待 退 加 数据 写 入 日 志 盘 ; b) 将 数据 写 入 对 应 的 extent 文 件 。 操 作 a ) 将 随机 
写 变 为 针对 日 志 盘 的 顺序 写 ， 一 般 来 癌 ， 操 作 a ) 先 成 功 ， 操 作 b ) 只 是 将 数据 保存 
到 系统 内 存 中 。 如 果 节 点 发 生 故 障 ， 需 要 通过 日 志 盘 中 的 数据 恢复 extent 文 件 。 通 
过 这 种 策略 ， 可 以 将 针对 同一 个 extent 文 件 的 连续 多 个 写 操 作 合 并 成 一 个 针对 磁盘 
的 写 操 作 ， 提 高 了 系统 的 吞吐 量 ， 同 时 降低 了 延 时 。 


文件 流 层 还 有 一 种 抹 除 码 ( erasure coding ) 机 制 用 于 减少 extent 副 本 占用 的 空 
间 ，GFSs 以 及 开源 的 HDFs 也 采用 了 这 个 机 制 。 每 个 数据 中 心 的 extent 副 本 默认 都 需 
要 存储 三 份 ， 为 了 降低 存储 成 本 ， 文 件 流 层 会 对 已 经 颖 合 的 extent 进 行 Reed- 
Solomon 编 码 [1]。 具 体 来 讲 ， 文 件 流 层 在 后 台 定 期 执行 任务 ， 将 extent 划 分 为 N 个 
长 度 大 致 相同 的 数据 段 ， 并 通过 Reed-Solomon 算 法 计算 出 M 个 纠 错 码 段 用 于 纠 错 。 
只 要 出 现 问 题 的 数据 段 或 纠 错 码 段 总 和 小 于 或 者 等 于 M 个 ， 文 件 流 层 都 能 重建 整个 
extent。 推 荐 的 配置 是 N=10，M=4， 也 就是 只 需要 1 .4 倍 的 存储 空间 ， 就 能 够 容忍 多 
达 4 个 存储 节操 出 现 故 障 。 


[1] 一 种 纠 错 码 ， 在 分 布 式 文件 系统 或 者 RAID 技 术 中 用 于 容忍 多 个 副本 或 者 磁盘 同 
时 离线 的 情况 。 


6.3.3 分 区 层 


分 区 层 构 建 在 文件 流 层 之 上 ， 用 于 提供 Table、B1lob、Queue 等 数据 服务 。 分 区 层 的 
一 个 重要 特性 是 提供 强 一 致 性 并 保证 事务 操作 顺序 。 


分 区 层 内 部 文 持 一 种 称 为 对 象 表 (Object Table,0T ) 的 数据 染 构 ， 每 个 oT 是 一 张 


最 大 可 达 若 干 PB 的 大 表 。 对 象 表 被 动态 地 划分 为 连续 的 范围 分 区 

( RangePartition， 对 应 Bigtable 中 的 子 表 ) ， 并 分 散 到 WAS 人 存储 区 的 多 个 分 区 服 
$588 (Partition Server) 上 。 范 围 分 区 之 间 互 相 不 重 晋 ， 每 一 行 都 确保 只 在 一 个 
范围 分 区 上 。 


WAS 和 存储 区 包含 的 对 象 表 包 括 账 己 表 ，B1ob 数 据 表 ，Entity 数 据 表 ，Message 数 据 
表 。 其 中 ， 账 户 表 存储 每 个 用 户 账户 的 元 数据 及 配置 信息 ; Blob, Entity, 
Message 数 据 表 分 别 对 应 WAS 中 的 Bblob、Table、Message 服 务 。 


另外 ， 分 层 区 中 还 有 一 张 全 局 的 Schema 表格 ( Schema Table) ， 保 证 所 有 的 对 象 
表格 的 schema 信 息 ， 即 每 个 对 象 表 包 含 的 每 个 列 的 名 字 ， 数 据 类 型 及 其 他 属性 。 对 
象 表 划 分 为 很 多 行 ， 每 个 行 通过 一 个 主键 (Primary Key ) 来 定位 ， 每 个 对 象 表 的 
行 主键 包括 用 户 账户 名 ， 分 区 名 以 及 对 象 名 三 个 部 分 。 系 统 内 部 还 维护 了 一 张 分 区 
映射 表 ( Partition Map) ， 用 于 记录 每 个 范围 分 区 当前 所 在 的 分 区 服务 器 。 


WAS 支 持 的 数据 类 型 包括 bool、binary string. DateTime, double, GUID, 
int32、int64、DictionaryType 以 及 BlobType。DictionaryType 人 允许 每 个 行 的 
某 一 列 的 值 为 一 系列 < name, type, value > 的 元 组 。BlobType 被 Blob 表 格 使 用 ， 
用 于 表示 图 片 、 图 像 等 81ob 数 据 。 


1. 架 构 


如 图 6-13 所 示 ， 分 区 层 包 含 如 下 四 个 部 分 : 
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es Fee ( Client) 
提供 分 区 层 到 WAS 前 端的 接口 ， 前 端 通过 客户 端 以 对 不 同 对 象 表 的 数据 单元 进行 增 、 
删 、 查 、 改 等 操作 。 客 户 端 通过 分 区 映射 表 ( Partition Map ) 获取 分 区 映射 信 


, 但 所 有 表格 的 数据 内 容 都 在 客户 端 与 分 区 服务 器 之 间 直 接 传送 


v— 





e 分 区 服务 器 (Partition Servern,PS ) 
PS 实现 分 区 的 闭 载 / 印 出 、 分 区 内 容 的 读 和 写 ， 分 区 的 合并 和 分 裂 。 一 般 来 说 ， 每 个 
PS 平均 服务 16 个 分 区 。 


e 分 区 管理 器 (Partition Manager,PM ) 


管理 所 有 的 PS， 包 括 分 配 分 区 给 Ps， 指导 PS 实现 分 区 的 分 裂 及 合并 ， 监 控 Ps， 在 PS 
之 间 进 行 负载 均衡 并 实现 Ps 的 故障 恢复 等 。 每 个 WAS 人 存储 区 有 多 个 PM ,他们 之 间 通 
过 Lock Service 进 行 选 主 ， 持 有 租约 的 PM 是 主 PM。 


e 锁 服务 (Lock Service) 


Paxos 锁 服务 用 于 WAS 人 存储 区 内 选举 主 PM。 另 外 ， 每 个 Ps 与 锁 服 务 之 间 都 维持 了 租 
约 。 锁 服务 监控 租约 状态 ，Ps 的 租约 快 到 期 时 ， 会 向 锁 服 务 重新 续 约 。 如 果 Ps 出 现 
故障 ，PM 需 要 首先 等 待 Ps 上 的 租约 过 期 才 可 以 将 它 原来 服务 的 分 区 分 配 出 去 ，PS 租 
约 如 果 过 期 也 需要 主动 停止 读 写 服 务 。 人 否则 ， 可 能 出 现 多 个 Ps 同时 读 写 同一 个 分 区 
的 情况 。 


2 .分 区 数据 结构 


WAS 分 区 层 中 的 操作 与 Bigtable 基 本 类 似 。 如 图 6-14， 用 户 写 操作 首先 追加 到 操作 
日 志文 件 流 ( Commit Log Stream) ， 接 着 修改 内 存 表 (Memory Table) ， 等 到 
内 存 表 到 达 一 定 大 小 后 ， 需 要 执行 快照 ( Checkpoint， 对 应 Bigtable 中 的 Minor 
Compaction ) 操作 。 分 区 服务 器 会 定期 将 多 个 小 快照 文件 合并 成 更 大 的 快照 文件 
( 对 应 Bigtable 中 的 Merge/Major Compaction ) 以 减少 读 操作 需要 访问 的 文件 


Bigtable 中 的 Block Cache 和 Key Value Cache) ， 另 外 ， 通 过 布 隆 过 滤器 过 滤 对 
快照 文件 不 仔 在 行 的 随机 读 请 求 。 


随机 读 /范围 查询 
Memory 分 区 内存 结 构 
Table Row Page Cache Index cache Load Metrics 


Adaptive 


Bloom Filters Range Profiling 


分 区 持久 化 结构 
(存储 在 文件 流 层 ) 


= 数据 文 [^ Ft 


din G E- pr dE: 
— in C | Checkpoint | © Checkpoint. C Checkpoint | 


Blob 数据 文件 流 


[extent 指针 | [Extent 指针 Extent [Extent 指针 | 
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与 Bigtable 的 不 同 点 如 下 : a ) WAs 中 每 个 分 区 拥有 一 个 专门 的 操作 日 志文 件 ， 而 
N MdL i Server 的 所 有 子 表 共 享 同 一 个 操作 日 志文 件 ; b ) WAS 中 
个 分 区 维护 各 目的 元 数据 ( 例如 分 区 包含 哪些 快照 文件 ， 持 久 化 成 元 数据 文件 

流 ) ， 分 区 管理 器 只 管理 每 个 分 区 与 所 在 的 分 区 服务 器 之 间 的 映射 关系 ; 而 
Bigtable 专 门 维护 了 两 级 元 数据 表 : 元 数据 表 (Meta Table) 及 根 表 ( Root 
Table) ， 每 个 分 区 的 元 数据 保存 在 上 一 级 元 数据 表 中 ; c ) WAS 专 | 门 引入 了 B1lob 数 
所 文件 流 用 于 支持 Blob 数 据 类 型 。 


由 于 Blob 数 据 一 般 比 较 大 ， 如 果 行 数据 流 中 包含 Blob 数 据 ， 只 记录 每 个 Blob 数 据 块 
在 操作 日 志文 件 流 (Commit Log Stream) 中 的 索引 信息 ， 即 所 在 的 操作 日 志文 件 


名 及 文件 内 的 偏 移 。 执 行 快照 操作 时 ， 需 要 回收 操作 日 志 。 如 果 操 作 日 志 的 某 些 
extent 包 含 Blob 数 据 ， 需 要 将 这 些 extent 连 接 到 Blob 数 据 流 的 末尾 。 这 个 操作 只 


是 简单 地 往 Blob 数 据 流 文 件 追加 extent 指 针 ， 文 件 流 层 对 此 专门 提供 了 快速 操作 接 


PM 记录 每 个 PS 及 它 服 务 的 每 个 分 区 的 负载 。 影 响 负 载 的 因素 包括 : 1 ) 每 秒 事务 数 ; 
2) 平均 等 待 事务 个 数 ; 3 ) 节 流 率 ; 4) CPU 使 用 率 ; 5 ) 网 络 使 用 率 ; 6 ) 请 求 延 
时 ; 7 ) 每 个 分 区 的 数据 大 小 。PM 与 Ps 之 间 维 持 了 心跳 ，PS 定 期 将 负载 信息 通过 心 
跳 包 回复 PM。 如 果 PM 检 测 到 某 个 分 区 的 负载 过 高 ， 友 送 指令 给 PS 执行 分 裂 操作 ; 如 
果 PS 负 载 过 高 ， 而 它 服务 的 分 区 集合 中 没有 过 载 的 分 区 ，PM 从 中 选择 一 个 或 者 多 个 
分 区 迁移 到 其 他 负载 较 轻 的 PS。 


对 某 个 分 区 负载 均衡 两 个 阶段 : 


e£ : PM 首先 发 送 一 个 秀 载 指令 给 PS ,PS 会 执行 一 次 快照 操作 。 一 旦 完成 后 ，PS 停 
止 待 迁 移 分 区 的 读 写 服务 并 告知 PM 和 Ei 载 成 功 。 如 果 乞 载 过 程 中 PS 出 现 异常 ，PM 需 要 
查询 锁 服 务 ， 和 直到 PS 的 服务 租约 过 期 才 可 以 执行 下 一 步 操作 。 


e 加 载 : PM 友 送 加 载 措 令 给 新 的 PS 并 且 更 新 PM 维护 的 分 区 映射 表 结构 ， 将 分 区 指向 
新 的 Ps。 新 的 PS 加 载 分 区 并 且 开 始 提供 服务 。 由 于 印 载 时 执行 了 一 次 快照 操作 ， 加 
载 时 需要 回放 的 操作 日 志 很 少 ， 保 证 了 加 载 的 快速 。 


4. 分 裂 与 合并 


有 两 种 可 能 导致 AS 对 某 个 分 区 执行 分 多 操作 ， 一 种 可 能 是 分 区 太 大 ， 另 外 一 种 可 能 
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分 裂 操 作 ，Ps 维 护 了 每 个 分 区 的 大 小 以 及 大 致 的 中 间 位 置 ， 并 将 这 个 中 间 位 置 作为 


分 裂 点 ; 如 果 是 基于 负载 的 分 裂 操作 ，PSs 自 适应 地 计算 分 区 中 哪个 主键 范围 的 负载 
最 高 并 通过 它 来 确定 分 裂 点 。 


假设 需要 把 分 区 B 分 裂 为 两 个 新 的 分 区 C 和 D， 操 作 步 骤 如 下 : 
1) PM 告知 PS 将 分 区 B 分 裂 为 c 和 ID。 
2) PS 对 B 执 行 快照 操作 ， 接 着 停止 分 区 B 的 读 写 服务 ; 


3) Ps 发 起 一 个 “MultiModify” [1] 操 作 将 分 区 B 的 元 数据 ， 操 作 日 志 及 行 数据 流 
复制 到 C 和 D。 这 一 步 只 需要 拷贝 每 个 文件 的 extent 指 针 列 表 ， 不 需要 拷贝 extent 的 
内 容 。 接 着 Ps 分 别 往 c 和 D 的 元 数据 流 写 入 新 的 分 区 范围 。 


4 ) PS 开始 对 C 和 D 这 两 个 分 区 提供 读 写 服务 。 


5 ) PS 通知 PM 分 裂 成 功 ，PM 相 应 地 更 新 分 区 映射 表 及 元 数据 信息 。 接 着 PM 会 把 C 或 者 
D 中 的 其 中 一 个 分 区 迁移 到 另外 一 个 不 同 的 PS。 


合并 操作 需要 选择 两 个 连续 的 负载 较 低 的 分 区 。 假 设 需要 把 分 区 C 和 D 合 并 成 为 新 的 
分 区 E。 操 作 步 又 如 下 : 


1) PM 迁移 C 或 者 D， 使 得 这 两 个 分 区 被 同一 个 PS 服务 。 接 着 PM 通知 PS 将 分 区 C 和 和 DpD 合 
并 成 为 E。 


2 ) PS 分 别 对 分 区 C 和 和 ID 执行 快 照 操作 ， 接 着 停止 分 区 C 和 D 的 读 写 服 务 ， 


3 ) PS 发 起 一 个 “MultiModify” 操 作 合 并 分 区 Cc 和 0D 的 操作 日 志 及 行 数据 流 ， 生 成 E 


的 操作 日 志和 行 数据 流 。 假 设 分 区 C 的 操作 日 志文 件 包含 «C1, C2» 两 个 extent , 
分 区 D 的 操作 日 志文 件 包 含 < D1， D2，D3 > 三 个 extent， 则 分 区 E 的 操作 日 志文 件 包 
£ <C1, C2, D1, D2，, D3> 这 五 个 extent。 行 数据 流 及 Blob 数 据 流 也 是 类 似 的 。 
与 分 裂 操 作 类 似 ， 这 里 只 需要 修改 文件 的 extent 指 针 列 表 ， 不 需要 拷贝 extent 的 实 


际 内 容 。 


4 ) PS 对 E 构 造 新 的 元 数据 流 ， 包 含 新 的 操作 日 志文 件 ， 行 数据 文件 ,Cc 和 D 合 并 后 的 
新 的 分 区 范围 以 及 操作 日 志 回 放 点 和 行 数 据 文件 索引 信息 。 


5 ) PS 加 载 新 分 区 E 并 提供 读 写 服务 

6 ) PS 通知 PM 合并 成 功 ， 接 着 PM 相应 地 更 新 分 区 映射 表 及 元 数据 信息 。 
[1]MultiModify 指 在 一 次 调用 中 实现 多 步 修 改 操作 。 

6.3.4 讨论 

WAS 整 体 架 构 借鉴 GFSs+Bigtable 并 有 所 创新 。 主 要 的 不 同 点 包括 : 


1) Chunk 大 小 选择 。GFs 中 每 个 Chunk 大 小 为 64MB， 随 着 服务 器 性 能 的 提升 ，WAS 每 
个 extent 大 小 提高 到 1GB 从 而 减少 元 数据 。 


2) 元 数据 层次 。Bigtab1le 中 元 数据 包括 根 表 和 元 数据 表 两 级 ， 而 WAs 中 只 有 一 级 元 
数据 ， 实 现 更 加 人 简便 。 


3 ) GFS 的 多 个 Chunk 副 本 之 间 是 弱 一 臻 的， 不 保证 每 个 chunk 的 不 同 副 本 之 间 每 个 字 
节 都 完全 相同 ， 而 WAS 能 够 保证 这 一 点 。 


4) Bigtable 每 个 Tablet Server 的 所 有 子 表 共享 一 个 操作 日 志文 件 从 而 提高 写 


性 能 ， 而 NAs 将 每 个 沁 围 分 区 的 操作 写 入 到 不 同 的 操作 日 志文 件 。 


第 7 草 分 布 式 数 据 库 


关系 数据 库 理论 汇集 了 计算 机 科学 家 几 十 年 的 智慧 ，Oracle、Microsoft SQL 
Server、MySQL 等 天 系数 据 库 系统 广泛 应 用 在 各 行 各 业 中 。 可 以 说 ， 没 有 关系 数据 
库 ， 就 没有 今天 的 IT 或 者 互联 网 行业 。 然 而 ， 关 系数 据 库 设计 之 初 并 没有 预见 到 IT 
行业 友 展 如 此 之 快 ， 总 是 假设 系统 运行 在 单机 这 一 封闭 系统 上 。 


有 很 多 思路 可 以 实现 关系 数据 库 的 可 扩展 性 。 例 如 ， 在 应 用 层 划 分 数据 ， 将 不 同 的 
数据 分 片 划分 到 不 同 的 关系 数据 库 上 ， 如 MySQL Sharding ; 或 者 在 关系 数据 库 内 部 
支持 数据 目 动 分 片 ， 如 Microsoft SQL Azure ; 或 者 干脆 从 存储 引擎 开始 重 写 一 个 
全 新 的 分 布 式 数据 库 ， 如 Google Spanner 以 及 AlLlibaba OceanBase, 


本 章 首 先 介绍 数据 库 中 间 层 架构 ， 接 着 介绍 Microsoft SQL Azure， 最 后 介绍 


Google Spanner, 


7.1 数据 库 中 间 层 


为 了 扩展 关系 数据 库 ， 最 简单 也 是 最 为 常见 的 做 法 就 是 应 用 层 按照 规则 将 数据 拆 分 
为 多 个 分 片 ， 分 布 到 多 个 数据 库 节 点 ， 并 引入 一 个 中 间 层 来 对 应 用 屏蔽 后 端的 数据 
库 拆 分 细节 。 


以 MySQL Sharding 架 构 为 例 ， 分 为 几 个 部 分 : 中 间 层 dbproxy 集 群 、 数 据 库 组 、 元 
数据 服务 器 、 单 驻 进程 ， 如 图 7-1 所 示 。 
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图 7-1 数据 库 中 间 层 架构 
( 1) MySQL 客 户 端 库 


应 用 程序 通过 MysQL 原 生 的 客户 新 与 系统 人 交互， 支持 JDBC， 原 有 的 单机 访问 数据 库 
程序 可 以 无 颖 迁移 ，。 


( 2 ) 中 间 层 dbproxy 


中 间 层 解析 客户 端 SQL 请 求 并 转发 到 后 端的 数据 库 。 具 体 来 讲 ， 它 解析 MysQL 协 议 ， 
执行 SQL 路 由 ，SQL 过 滤 ， 读 写 分 离 ， 结 果 归 并 ， 排 序 以 及 分 组 ， 等 等 。 中 间 层 由 多 
个 无 状态 的 dbproxy 进 程 组 成 ， 不 人 存在 单 点 的 情况 。 另 外 ， 可 以 在 客户 端 与 中 间 层 
之 间 引 入 LVS ( Linux Virtual Server) 对 客户 疹 请 求 进行 负载 均衡 。 需 要 注意 的 


是 ， 引 入 LVS 后 ， 客 户 端 请 求 需要 额外 增加 一 层 通信 开销 ， 因 此 ， 常 见 的 做 法 是 直接 
在 客户 端 配置 中 间 层 服务 器 列表 ， 由 客户 端 处 理 请 求 负载 均衡 以 及 中 间 层 服务 器 故 


障 等 情况 。 
( 3 ) 数据 库 组 dbgroup 


每 个 dbgroup 由 N 台 数据 库 机 器 组 成 ， 其 中 一 台 为 主机 (Master) ， 另 外 N-1 台 为 备 
机 ( Slave ) 。 主 机 负责 所 有 的 写 事务 及 强 一 致 读 事 务 ， 并 将 操作 以 bin1og 的 形式 
复制 到 备 机 ， 备 机 可 以 支持 有 一 定 延 迟 的 读 事务 。 


( 4 ) 元 数据 服务 器 


元 数据 服务 器 主要 负责 维护 dbgroup 拆 分 规则 并 用 于 dbgroup 选 主 。dbproxy 通 过 元 
数据 服务 器 获取 拆 分 规则 从 而 确定 SQL 语句 的 执行 计划 。 另 外 ， 如 果 dbgroup 的 主机 
出 现 故 障 ， 需 要 通过 元 数据 服务 器 选 主 。 元 数据 服务 器 本 身 也 需要 多 个 副本 实现 
HA， 一 种 常见 的 方式 是 采用 Zookeeper 实 现 。 


(5) 常 驻 进程 agents 


部 署 在 每 台数 据 库 服 务 器 上 的 常 驻 进程 ， 用 于 实现 监控 ， 单 点 切换 ,安装 ， 纪 载 程 
序 等 。dbgroup 中 的 数据 库 需要 进行 主 备 切 换 ， 软 件 升 级 等 ， 这 些 控制 逻辑 需要 与 
数据 库 读 写 事务 处 理 逻 辑 隔 离开 来 。 


假设 数据 库 按 照 用 户 哈 希 分 区 ， 同 一 个 用 户 的 数据 分 布 在 一 个 数据 库 组 上 。 如 果 SQL 
请 求 只 涉及 同一 个 用 户 ( 这 对 于 大 多 数 应 用 都 是 成 立 的 ) ， 那 么 ， 中 间 层 将 请 求 转 
发 给 相应 的 数据 库 组 ， 等 待 返回 结果 并 将 结果 返回 给 客户 端 ; 如 果 SQL 请 求 涉及 多 个 
用 户 ， 那 么 中 间 层 需要 转发 给 多 个 数据 库 组 ， 等 待 返 回 结果 并 将 结果 执行 合并 、 分 


组 、 排 序 等 操作 后 返回 客户 端 。 由 于 中 间 层 的 协议 与 MySQL 兼 容 ， 客 户 端 完全 感受 不 
到 与 访问 单 台 MySQL 机 器 之 间 的 差别 。 


7.1.2 扩容 

MySQL Sharding 集 群 一 般 按照 用 户 id 进 行 哈 希 分 区 ， 这 里 面 仓 在 两 个 问题 : 
1) 集群 的 容量 不 够 怎么 办 ? 

2 ) 单个 用 尸 的 数据 量 太 大 怎么 办 ? 


对 于 第 1 个 问题 ， MySQL Sharding 和 集群 往往 会 采用 双 售 扩容 的 方案 ， 即 从 2 台 服 务 器 
扩 到 4 台 ， 接 着 再 扩 到 8 人 台 .……， 依 次 类 推 。 


假设 原来 有 2 个 dbgroup， 第 一 个 dbgroup 的 主机 为 A8， 备 机 为 AL， 第 二 个 dbgroup 
的 主机 为 Be， 备 机 为 B1。 按 照 用 户 id 哈 希 取 模 ， 结果 为 奇数 的 用 户 分 布 在 第 一 个 
dbgroup， 结 果 为 偶数 的 用 户 分 布 在 第 二 个 dbgroup。 常 见 的 一 种 扩容 万 式 如 下 : 


1) 等 待 Ae 和 B6 的 数据 同步 到 其 备 服务 器 ， 即 AL 和 B1。 
2 ) 停止 写 服 务 ， 等 待 主 备 完全 同步 后 解除 A6e 与 AL、B6 与 B1 之 间 的 主 备 关 系 。 


3 ) 修改 中 间 层 的 映射 规则 ， 将 哈 希 值 模 4 等 于 1 的 用 户 数据 映射 到 A1， 哈 希 值 模 4 等 
于 3 的 用 户 数据 映射 到 B1。 


4) 开局 写 服 务 ， 用 户 id 哈 希 值 模 4 等 于 9、1、2、3 的 数据 将 分 别 写 入 到 A@6、A1、 
B6、B1。 这 就 相当 于 有 一 半 的 数据 分 别 从 Ae、B6 迁 移 到 A1、B1。 


5) 分 别 给 Ae、A1、B6、B1 增 加 一 台 备 机 。 


最 终 ， 集 群 由 2 个 dbgroup 变 为 4 个 dbgroup。 可 以 看 到 ， 扩容 过 程 需 要 停 一 小 会 儿 服 
务 ， 另 外 ， 扩 容 进 行 过 程 中 如 果 再 次 发 生 服务 器 故障 ， 将 使 扩容 变 得 非常 复杂 ， 很 
难 做 到 完全 目 动 化 。 


对 于 第 2 个 问题 ， 可 以 在 应 用 层 定 期 统计 大 用 户 ， 并 且 将 这 些 用 户 的 数据 按照 数据 量 
拆 分 到 多 个 dbgroup。 当 然 ， 定 期 维护 这 些 信息 对 应 用 层 是 一 个 很 大 的 代价 。 


7.2 Microsoft SQL Azure 


Microsoft SQL Azure 是 微软 的 云天 系 型 数据 库 ， 后 端 人 存储 又 称 为 云 SQL 
Server ( Cloud SQL Server ) 。 它 构建 在 SQL Server 之 上 ， 通 过 分 布 式 技术 提升 
传统 关系 型 数据 库 的 可 扩展 性 和 容错 能 力 。 


7.2.1 数据 模型 
1. 逻 辑 模型 


云 SQL Server 将 数据 划分 为 多 个 分 区 ， 通 过 限制 事务 只 能 在 一 个 分 区 执行 来 规避 分 
布 式 事务 。 另 外 ， 它 通过 主 备 复制 ( Primary-Copy ) 协议 将 数据 复制 到 多 个 副本 ， 
保证 高 可 用 性 。 


云 SQL Server 中 一 个 逻辑 数据 库 称 为 一 个 表格 组 ( table group) ， 它 既 可 以 是 有 
主键 的 ， 也 可 以 是 无 主键 的 ， 本 节 只 讨论 有 主键 的 表格 组 。 如 果 一 个 表格 组 是 有 主 
键 的 ， 要 求 表格 组 中 所 有 的 表格 都 有 一 个 相同 的 列 ， 称 为 划分 主键 ( partitioning 
key ) 。 图 中 的 表格 组 包含 两 个 表格 ， 顾 客 表 (Customers ) 和 订单 表 

(Orders ) ， 划 分 主键 为 顾客 ID ( Customers 表 中 的 Id 列 ) 。 如 图 7-2 所 示 。 


划分 主键 不 需要 是 表格 组 中 每 个 表格 的 唯一 主键 。 图 7-2 中 ， 顾 客 ID 是 顾客 表 的 唯一 


主键 ， 但 不 是 订单 表 的 唯一 主键 。 同 样 ， 划 分 主键 也 不 需要 是 每 个 表格 的 聚集 京 
引 ， 订 单 表 的 聚集 紊 引 为 组 合 主键 < 顾客 ID， 订 单 ID> ( <Id,0id> ) 。 
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表格 组 中 所 有 划分 主键 相同 的 行 集合 称 为 行 组 ( row group) 。 顾 客 表 的 第 一 行 以 
及 订单 表 的 前 两 行 的 划分 主键 均 为 34， 构 成 一 个 行 组 。 云 SQL Server 只 支持 同一 个 
行 组 内 的 事务 ， 这 就 意味 着 ， 同 一 个 行 组 的 数据 逻辑 上 会 分 布 到 一 合 服务 器 。 


如 果 表 格 组 是 有 主键 的 ， 云 SQL Server 文 持 上 自动 地 水 平 拆 分 表格 组 并 分 散 到 整个 集 
群 。 同 一 个 行 组 总 是 被 一 台 物 理 的 SQL Server 服 务 ， 从 而 避免 了 分 布 式 事务 。 这 样 
的 好 处 是 避免 了 分 布 式 事务 的 两 个 问题 : 阻塞 及 性 能 ， 当 然 ， 也 限制 了 用 户 的 使 用 
模式 。 


只 读 事 务 可 以 跨 多 个 行 组 ,但 事务 隔离 级 别 最 多 支持 读 取 已 提交 ( read- 


committed), 
2 .物理 模型 


在 物理 层面 ， 每 个 有 主键 的 表格 组 根据 划分 主键 列 有 序 地 分 成 多 个 数据 分 区 
(partition), 。 这 些 分 区 之 间 互 相 不 重 晋 ， 并 且 履 盖 了 所 有 的 划分 主键 值 。 这 就 
确保 了 每 个 行 组 属于 一 个 唯一 的 分 区 。 


分 区 是 云 SQL Server 复 制 、 迁 移 、 负 载 均衡 的 基本 单位 。 每 个 分 区 包含 多 个 副本 
( 默认 为 3 ) ， 每 个 副本 存储 在 一 台 物 理 的 SQL server 上 。 由 于 每 个 行 组 属于 一 个 
分 区 ， 这 也 束 意 味 着 每 个 行 组 的 数据 量 不 能 超过 分 区 允许 的 最 大 值 ， 也 惑 是 单 台 SQL 


Server 的 容量 上 限 。 


一 般 来 说 ， 同 一 个 交换 机 或 者 同一 个 机 架 的 机 器 同时 出 现 故 障 的 概率 较 大 ， 因 而 它 
们 属于 同一 个 故障 域 ( failure domain) 。 云 SQL Server 保 证 每 个 分 区 的 多 个 晶 
本 分 布 到 不 同 的 故障 域 。 每 个 分 区 有 一 个 副本 为 主 副 本 (Primary) ， 其 他 副本 为 
备 副 本 ( Secondary ) 。 主 副本 处 理 所 有 的 查询 ， 更 新 事务 并 以 操作 日 志 的 形式 将 
事务 同步 到 备 副 本 ， 备 副本 接收 主 副本 发 送 的 事务 日 志 并 应 用 到 本 地 数据 库 。 目 


前 ， 备 副本 不 支持 读 操作 ， 当然 ， 这 是 很 容易 实现 的 ， 只 是 可 能 读 取 到 过 期 的 数 
据 。 


如 图 7-3 所 示 ， 有 四 个 逻辑 分 区 PA、PB、PC、PD， 每 个 分 区 有 一 个 主 副本 和 两 个 备 
副本 。 例 如 ，PA 有 一 个 主 副本 PAP 以 及 两 个 备 副 本 PAS1 和 PAS2。 每 台 物 理 SQ&L 
server 数 据 库 混合 存放 了 主 副本 和 备 副 本 。 如 果 某 台 机 器 发 生 故 障 ， 它 上 面 的 分 区 
能 够 很 快 分 散 到 其 他 活着 的 机 器 上 。 
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分 区 划分 是 动态 的 ， 如 果 某 个 分 区 超过 了 人 允许 的 最 大 分 区 大 小 或 者 负载 太 高 ， 这 个 
分 区 将 分 裂 为 两 个 分 多。 假设 分 区 A 的 主 副 本 在 机 器 X， 它 的 备 副 本 在 机 器 Y 和 z。 如 
果 分 区 A 分 裂 为 AL 和 A2， 每 个 副本 都 需要 相应 地 分 多 为 两 段 。 为 了 更 好 地 进行 负载 均 
衡 ， 每 个 副本 分 裂 前 后 的 角色 可 能 不 尽 相 同 。 例 如 ，A1 的 主 副本 仍然 在 机 器 X， 备 副 
本 在 机 器 Y 和 机 器 Zz; 而 A2 的 主 副本 可 能 人 在 机 器 Y， 备 副本 在 机 器 X 和 机 器 Z。 


云 SQL Server 分 为 四 个 主要 部 分 : SQL Server 实 例 、 全 局 分 区 管理 、 协 议 网 天、 
分 布 式 基 础 部 件 ， 如 图 7-4 所 示 。 


应 用 客户 端 


zx SQL Server 


协议 网 关 





e 每 个 SQL server 实 例 是 一 个 运行 着 SQL _ Server 的 物理 进程 。 每 个 物理 数据 库 包 含 
多 个 子 数据 库 ， 它 们 之 间 互 相隔 离 。 子 数据 库 是 一 个 分 区 ， 包 含 用 户 的 数据 以 及 


schema 信 息 。 


e 全 局 分 区 管理 器 (Global Partition Mana- ger ) 维护 分 区 映射 表 信 息 ， 包 括 
每 个 分 区 的 主键 学 围 ， 每 个 副本 所 在 的 服务 器 ， 以 及 每 个 副本 的 状态 ， 包 括 副 本 当 
前 是 主 还 是 备 ， 前 一 次 是 主 还 是 备 ， 正 在 变 成 主 ， 正 在 被 拷贝 或 者 正在 被 追赶 。 当 
服务 器 上 友 生 故障 时 ， 分 布 式 基础 部 件 检测 并 确保 服务 器 故障 后 通知 全 局 分 区 管理 
器 。 全 局 分 区 管理 器 接着 执行 重新 配置 操作 。 另 外 ， 全 局 分 区 管理 器 监控 集群 中 的 
SQL Server 工 作 机 ， 执行 负载 均衡 ， 副 本 拷贝 等 管理 操作 。 


e 协 议 网 关 ( Protocol Gateway ) 负责 将 用 户 的 数据 库 连 接 请 求 转发 到 相应 的 主 分 


区 上 。 协 议 网 关 通 过 全 局 分 区 管理 器 获取 分 区 所 在 的 SQL Server 实 例 ， 后 续 的 读 写 
事务 操作 都 在 网 天 与 SQL Server 实 例 之 间 进 行 。 


e 分 布 式 基础 部 件 (Distributed Fabric) 用 于 维护 机 器 上 下 线 状 态 ， 检 测 服务 器 
故障 并 为 集群 中 的 各 种 角色 执行 选举 主 节 点 操作 。 它 在 每 台 服 务 器 上 都 运行 了 一 个 
守护 进程 。 


7.2.3 复制 与 一 致 性 


云 SQL Server 采 用 “Quorum Commit” 的 复制 协议 ， 用 户 数 据 存储 三 个 副本 ， 至少 
写成 功 两 个 副本 才 可 以 返回 客户 端 成 功 。 如 图 7-5 所 示 ， 事 务 T 的 主 副 本 分 区 生成 操 
作 日 志 并 发 送 到 备 副 本 。 如 果 事务 T 回 滚 ， 主 副本 会 发 送 一 个 ABORT 消 息 给 备 副本 ， 
备 副本 将 删除 接收 到 的 T 事 务 包含 的 修改 操作 。 如 果 事 务 T 提 交 ， 主 副本 会 发 送 
COMMIT 消 息 给 备 副 本 ， 并 带 上 事务 提交 顺序 号 (Commit Sequence 

Number,CSN) ， 每 个 备 副 本 会 把 事务 T 的 修改 操作 应 用 到 本 地 数据 库 并 发 送 ACK 消 息 
回复 主 副本 。 如 果 主 副本 接收 到 一 半 以 上 的 成 功 ACK ( 包含 主 副 本 自身 ) ， 它 将 在 本 
地 提交 事务 并 成 功 返 回 客户 端 。 


Primary Secondary 
TO: update (w) 

T1: update (x) 

TO: update (y) 

T1: update (z) 

TI: commit (CSN-1) 


Tl: start transaction; 


Update (x); 
Update (z); 
Commit: 


"1: acd-commit 
T0: commit (CSN-2) 


TO: start transaction; 
T0: acH-commit 
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某 些 备 副 本 可 能 出 现 故障 ， 恢 复 后 将 往 主 副 本 发 送 本 地 已 经 提交 的 最 后 一 个 事务 的 
提交 顺序 号 。 如 果 两 者 相差 不 多 ， 主 副本 将 直接 友 送 操作 日 志 给 备 副 本 ; 如 果 两 者 
相差 太 多 ， 主 副本 将 首先 把 数据 库 快 照 传 给 备 副本 ， 再 把 快照 点 之 后 的 操作 日 志 传 
给 备 副本 。 


主 副本 与 备 副本 之 间 传 送 逻 辑 操作 日 志 ， 而 不 是 对 磁盘 物理 页 的 redo &undo 日 志 。 
数据 库 索 引 及 schema 相 关 操 作 ( 如 创建 ， 删 除 表 格 ) 也 通过 操作 日 志 发 送 。 实 践 过 
程 中 发 现 了 一 些 硬件 问题 ， 比 如 某 些 网 卡 会 表现 出 错误 的 行为 ， 因 此 对 主 备 之 间 的 
所 有 消息 都 会 做 校 验 ( checksum ) 。 同 样 ， 有 某 些 磁盘 会 出 现 “位 翻转 ”错误 ， 


此 ， 对 写 入 到 磁盘 的 数据 也 做 校 验 。 
7.2.4 容错 


如 果 数 据 节点 发 生 了 故障 ， 需 要 启动 宕 机 恢复 过 程 。 每 个 SQL Server 实 例 最 多 服务 
658 个 逻辑 分 区 ， 这 些 分 区 可 能 是 主 副 本 ， 也 可 能 是 备 副 本 。 全 局 分 区 管理 器 统一 调 
度 ， 每 次 选择 一 个 分 区 执行 重新 配置 ( Reconfiguration ) 。 如 果 出 现 故 障 的 分 区 
是 备 副 本 ， 全 局 分 区 管理 器 首先 选择 一 台 负 载 较 轻 的 服务 器 ， 接 着 从 相应 的 主 副本 
分 区 拷贝 数据 来 增加 副本 ; 如 果 出 现 故 障 的 分 区 是 主 副本 ， 首 先 需 要 从 其 他 副本 中 
选择 一 个 最 新 的 备 副 本 作为 新 的 主 副本 ， 接 着 选择 一 台 负 载 较 轻 的 机 器 增加 备 副 
本 。 由 于 云 SQL Server 采 用 “Quorum Commit” 复 制 协议 ， 如 果 每 个 分 区 有 三 个 副 
本 ， 至 少 保证 两 个 副本 写 入 成 功 ， 主 副本 出 现 故障 后 选择 最 新 的 备 副 本 可 以 保证 不 
ze da. 


全 局 分 区 管理 器 控制 重新 配置 任务 的 优先 级 ， 人 否则 ， 用 户 的 服务 会 受到 影响 。 比 如 
某 个 数据 分 片 的 主 副 本 出 现 故 障 ， 需 要 尽快 从 其 他 副本 中 选择 备 副 本 切换 为 主 副 
本 ; 某 个 数据 分 片 只 有 一 个 副本 ， 需 要 优先 复制 。 另 外 ， 某 些 服务 器 可 能 下 线 很 短 
一 段 时 间 后 重新 上 线 ， 为 了 避免 过 多 无 用 的 数据 拷贝 ， 这 里 还 需要 配置 一 些 策略 : 
比如 只 有 两 个 副本 的 状态 持续 较 长 一 段 时 间 ( SQL Azure 默 认 配 置 为 两 小 时 ) 才 开 
始 复制 第 三 个 副本 。 


全 局 分 区 管理 器 也 采用 “Quorum Commit" 实现 高 可 用 性 。 它 包含 七 个 副本 ， 同 一 
时 刻 只 有 一 个 副本 为 主 ， 分 区 相关 的 元 数据 操作 至 少 需 要 在 四 个 副本 上 成 功 。 如 果 
全 局 分 区 管理 器 主 副本 出 现 故 障 ， 分 布 式 基础 部 件 将 负责 从 其 他 副本 中 选择 一 个 最 
新 的 副本 作为 新 的 主 副本 。 


7.2.5 负载 均衡 


负载 均衡 相关 的 操作 包含 三 种 : 副本 迁移 以 及 主 备 副 本 切换 。 新 的 服务 器 节点 加 入 
时 ， 系统 内 的 分 区 会 逐步 地 迁移 到 新 节操 ， 这 里 需要 注意 的 是 ， 为 了 避免 过 多 的 分 
区 同时 迁 入 新 节操 ， 全 局 分 区 管理 器 需要 控制 迁移 的 频率 ， 否 则 系统 整体 性 能 可 能 
会 下 降 。 另 外 ， 如 果 主 副本 所 在 服务 器 负载 过 高 ， 可 以 选择 负载 较 低 的 备 副 本 蔡 换 
为 主 副 本 提供 读 写 服务 。 这 个 过 程 称 为 主 备 副本 切换 ， 不 涉及 数据 拷贝 。 


影响 服务 器 节操 负载 的 因素 包括 : 读 写 次 数 ， 磁 盘 / 内 存 /CPU/IO 使 用 量 等。 全 局 分 
区 管理 器 会 根据 这 些 因素 计算 每 个 分 区 及 每 个 SQL Server 实 例 的 负载 。 


7.2.6 多 租户 


云 存储 系统 中 多 个 用 户 的 操作 相互 干扰 ， 因 此 需要 限制 每 个 SQL Azure 人 逻辑 实例 使 
用 的 系统 资源 : 


1 ) 操作 系统 资源 限制 ， 比 如 CPU、 内 存 、 写 入 速度 ， 等 等 。 如 果 超 过 限制 ， 将 在 16 
秒 内 拒绝 相应 的 用 户 请 求 ; 


2 ) SQL Azure 逻 辑 数 据 库 容量 限制 。 每 个 逻辑 数据 库 都 预先 设置 了 最 大 的 容量 ， 超 
过 限制 时 拒绝 更 新 请 求 ， 但 允许 删除 操作 ; 


3 ) SQL server 物 理 数 据 库 数据 大 小 限制 。 超 过 该 限制 时 返回 客户 端 系统 错误 ,此 
时 需要 人 工 介入 。 


7.2.7 讨论 


Microsoft SQL Azure 将 传统 的 关系 型 数据 库 SQL Server 搬 到 云 环境 中 ， 比 较 符 


合用 户 过 去 的 使 用 习惯 。 当 然 ， 云 SQL Server 与 单机 SQL Server 还 是 有 一 些 区 


El. 


力 


c— 


e 不 文 持 的 操作 : Microsoft Azure 作 为 一 个 针对 企业 级 应 用 的 平台 ， SEXE 
持 尽量 多 的 SQL 特 性 ， 仍 然 有 一 些 特性 无 法 支持 。 比 如 USE 操 作 : SQL Server 可 以 通 
过 UsE 切 换 数 据 库 ， 不 过 在 SQL Azure 不 支持 ， 这 是 因为 不 同 的 逻辑 数据 库 可 能 位 于 
不 同 的 物理 机 器 。 


e 观 念 转变 : 对 于 开 友 人 员 ， 需 要 用 分 布 式 系统 的 思维 开 上 友 程 序 ， 比 如 一 个 连接 除了 
成 功 、 失 败 还 有 第 三 种 不 确定 状态 : 云端 没有 返回 操作 结果 ， 操 作 是 否 成 功 我 们 无 
从 得 知 ; 对 于 DBA， 数 据 库 的 日 常 维护 ， 比 如 升级 、 数 据 备份 等 工作 都 移交 给 了 入 
软 ， 可 能 会 有 更 多 的 精力 天 注 业 务 系统 架构 。 


相 比 Azure Table Storage,SQL Azure 在 扩展 性 上 有 一 些 劣势 ， 例 如 ， 单 个 SQL 

Azure 实 例 大 小 限制 。Azure Table Storage 单 个 用 户 表格 的 数据 可 以 分 布 到 多 个 
存储 节点 ， 数 据 总 量 几乎 没有 限制 ; 而 单个 SQL Azure 实 例 最 大 限制 为 56GB， 如 果 
用 户 的 数据 量 大 于 最 大 值 ， 需 要 用 户 在 应 用 层 对 数据 库 进 行 水 平 或 者 垂直 拆 分 ， 使 
用 起 来 比较 麻烦 。 


7.3 Google Spanner 


Google Spanner 是 Google 的 全 球 级 分 布 式 数据 库 ( Globally-Distributed 
Database), 。Spanner 的 扩展 性 达到 了 全 球 级 ， 可 以 扩展 到 数 百 个 数据 中 心 ， 数 百 
万 台 机 器 ， 上 万 亿 行 记录 。 更 为 重要 的 是 ， 除 了 和 夸张 的 可 扩展 性 乙 外 ， 它 还 能 通过 
同步 复制 和 多 版 本 控制 来 满足 外 部 一 致 性 ， 叉 持 跨 数据 中 心事 务 。 


无 论 从 学 术 研 究 还 是 工程 实践 的 角度 看 ，Spanner 都 是 一 个 划时代 的 分 布 式 存储 系 


统 。Spanner 的 成 功 说 明了 一 点 ， 分 布 式 技 术 能 够 和 数据 库 技术 有 机 地 结合 起 来 , 
通过 分 布 式 技术 实现 高 可 扩展 性 ， 并 呈现 给 使 用 者 类 似 关系 数据 库 的 数据 模型 。 


7.3.1 数据 模型 
Spanner 的 数据 模型 与 6. 2 节 中 介绍 的 Megastore 系 统 比较 类 似 。 


如 图 7-6 所 示 ， 对 于 一 个 典型 的 相册 应 用 ， 需 要 存储 其 用 户 和 相册 ， 可 以 用 上 面 的 两 
个 SQL 语 句 来 创建 表 。Spanner 的 表 是 层次 化 的 ， 最 底层 的 表 是 目录 表 

( Directorytable ) ， 其 他 表 创 建 时 ， 可 以 用 INTERLEAVE IN PARENT 来 表示 层次 
天 系 。Spanner 中 的 目录 相当 于 Megastore 中 的 实体 组 ， 一 个 用 户 的 信息 

(user id,email) 以 及 这 个 用 户 下 的 所 有 相片 信息 构成 一 个 目录 。 实 际 存储 时 , 
Spanner 会 将 同一 个 目录 的 数据 存放 到 一 起 ， 只 要 目录 不 大 大 ， 同 一 个 目录 的 每 个 
副本 都 会 分 配 到 同一 台 机 器 。 因 此 ， 针 对 同一 个 目录 的 读 写 事务 大 部 分 情况 下 都 不 
会 涉及 跨 机 操作 。 


CREATE TABLE Users | | —»— ------p———- ----- 
user id int64 not null, ; 
一 | Directory 
email string 
A a ean naii "a MR 3665 
) PRIMARY KEY(user id),DIRECTORY; 
CREATE TABLE Albums ( . | .)— Œ- 


user id int64, 


Albums(2,1) Directory 
Albums(2.2) 453 
Albums(2,3) 


album id int32, 
name string 

) PRIMARY KEY(user id, album id), 
INTERLEAVE IN PARENT Users; 
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7.3.2 架构 


Spanner 构 建 在 Google 下 一 代 分 布 式 文件 系统 Colossus 之 上 。CcColossus 是 GFSs 的 延 





续 ， 相 比 GFs,Colossus 的 主要 改进 点 在 于 实时 性 ， 并 且 文 持 海 量 小 文件 。 


由 于 spanner 是 全 球 性 的 ， 因 此 它 有 两 个 其 他 分 布 式 人 存储 系统 没有 的 概念 : 





eUniverse。 一 个 Spanner 部 署 实 例 称 为 一 个 Universe。 目 前 全 世界 有 3 个 ， 一 个 
开发 、 一 个 测试 、 一 个 线 上 。Universe 支 持 多 数据 中 心 部 署 ， 有 上 且 多 个 业务 可 以 共享 
同一 个 Universe。 

ezones。 每 个 zone 属于 一 个 数据 中 心 ， 而 一 个 数据 中 心 可 能 有 多 个 Zone。 一 般 来 


一 一 
LET 


说 ，Zzone 内 部 的 网 络 通信 代 价 较 低 ， 而 Zone 与 Zone 之 间 通 信 代 价 很 高 。 


如 图 7-7 所 示 ，Sspanner 系 统 包含 如 下 组 件 : 





Plcement Driver 
ZoneN 


zonemaster zonemaster 
f location i location e. i location 
XV proxy proxy 


proxy 
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eUniverse Master : 监控 这 个 Universe 里 Zone 级 别 的 状态 信息 。 


ePlacement Driver : 提供 跨 Zone 数 据 迁 移 功能 。 


eLocation Proxy : 提供 获取 数据 的 位 置信 息 服务 。 客 尸 端 需要 通过 它 才能 够 知道 


数据 由 哪 台 spanserver 服 务 。 
eSpanserver : 提供 存储 服务 ， 功 能 上 相当 于 Bigtable 系 统 中 的 Tablet Server, 


每 个 Spanserver 会 服务 多 个 子 表 ， 而 每 个 子 表 又 包含 多 个 目录 。 客 户 端 往 spanner 
发 送 读 写 请 求 时 ， 首 先 查 找 目录 所 在 的 Spanserver， 接 着 从 Spanserver 读 写 数 
H, 


这 里 面 有 一 个 问题 : 如 何 存储 目录 与 Spanserver 之 间 的 映射 关系 ? 假设 每 个 用 户 对 
应 一 个 目录 ， 全 球 总 共有 56 亿 用 户 ， 那 么 ， 了 映射 关系 的 数据 规模 为 几 十 亿 到 几 特 
亿 ， 单 台 服 务 器 无 法 仓 放 。Spanner 论 文中 没有 了 明确 说 明 ， 笔 者 猜测 这 里 的 做 法 和 
Bigtab1le 类 似 ， 即 将 映射 天 系 这 样 的 元 数据 信息 当成 元 数据 表格 ， 和 普通 用 户 表 格 
采取 相同 的 存储 方式 。 


7.3.3 复制 与 一 致 性 


如 图 7-8 所 示 ， 每 个 数据 中 心 运行 着 一 套 Colossus， 每 个 机 器 有 166 ~ 1666 个 子 
E, 每 个 子 表 会 在 多 个 数据 中 心 部 署 多 个 副本 。 为 了 同步 系统 中 的 操作 日 志 ， 每 个 
子 表 上 会 运行 一 个 Paxos 状 态 机 。Paxos 协 议会 选 出 一 个 副本 作为 主 副 本 ， 这 个 主 副 
本 的 寿命 默认 是 16 秒 。 正 常情 况 下 ， 这 个 主 副本 会 在 快要 到 期 的 时 候 将 自己 再 次 选 
为 主 副本 ; 如 果 出 现 异 常 ， 例 如 主 副本 所 在 的 spanserver 宕 机 ， 其 他 副本 会 在 16 秒 
后 通过 Paxos 协 议 选 举 为 新 的 主 副本 。 


其 他 Paxos 组 的 


参与 者 


其 他 Paxos 组 的 


ja Es 
SJA 





f | ] ` 
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fX fX FX 
! Colossus | : Colossus ! | Colossus | 
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数据 中 心 X 数据 中 心 Y 数据 中 心 Z 
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通过 Paxos 协 议 ， 实 现 了 跨 数 据 中 心 的 多 个 副本 之 间 的 一 致 性 。 另 外 ， 每 个 主 副本 所 
在 的 Spanserver 还 会 实现 一 个 锁 表 用 于 并 发 控制 ， 读 写 事 务 操作 某 个 子 表 上 的 目录 
时 需要 通过 锁 表 避免 多 个 事务 之 间 互 相干 扰 。 


除了 锁 表 ， 每 个 主 副本 上 还 有 一 个 事务 管理 器 。 如 果 事 务 在 一 个 Paxos 组 里 面 ， 可 以 
绕 过 事务 管理 器 。 但 是 一 旦 事务 跨 多 个 Paxos 组 ， 就 需要 事务 管理 器 来 协调 。 


炎 表 实现 单个 Paxos 组 内 的 单机 事务 ， 事 务 管理 器 实现 跨 多 个 Paxos 组 的 分 布 式 事 
务 。 为 了 实现 分 布 式 事务 ， 需 要 实现 3.7.1 节 中 提 到 的 两 阶段 提交 协议 。 有 一 个 
Paxos 组 的 主 副 本 会 成 为 两 阶段 提交 协议 中 的 协调 者 ， 其 他 Paxos 组 的 主 副 本 为 参与 
者 。 


Hr 


7.3.4 TrueTime 


为 了 实现 并 发 控制 ， 数 据 库 需 要 给 每 个 事务 分 配 全 局 唯一 的 事务 id。 然 而 ， 人 在 分 布 
陈 系统 中 ， 很 难 生成 全 局 唯一 id。 一 种 方式 是 采用 Google Percolator ( Google 
Caffeine 的 底层 存储 系统 ) 中 的 做 法 ， 即 专门 部 署 一 套 Oracle 数 据 库 用 于 生成 全 局 
唯一 id。 虽 然 oracle 逻 辑 上 是 一 个 单 点 ， 但 是 实现 的 功能 单一 ， 因 而 能 够 做 得 很 高 
效 。Spanner 选 择 了 另外 一 种 做 法 ， 即 全 球 时 钟 同步 机 制 TrueTime。 


TrueTime 是 一 个 提供 本 地 时 间 的 接口 ， 但 与 Linux 上 的 gettimeofday 接 口 不 一 样 的 
是 ， 它 除了 可 以 返回 一 个 时 间 戳 t， 还 会 给 出 一 个 误差 e。 例 如， 返回 的 时 间 戳 是 26 
点 23 分 38 秒 166 上 毫秒， 而 误差 是 5 毫秒 ， 那 么 真实 的 时 间 在 28 点 23 分 36 秒 95 毫 秒 到 
165 毫 秒 之 间 。 真 实 的 系统 e 平 均 下 来 只 有 4 毫秒 。 


TrueTime API 实 现 的 基础 是 GPS 和 原子 钟 。 之 所 以 要 用 两 种 技术 来 处 理 ， 是 因为 导 
致 这 两 种 技术 失效 的 原因 是 不 同 的 。GPS 会 有 一 个 天 线 ， 电 波 干扰 会 导致 其 失灵 。 原 
子 钟 很 稳定 。 当 GPS 失灵 的 时 候 ， 原 子 钟 仍然 能 保证 在 相当 长 的 时 间 内 ， 不 会 出 现 偏 
差 。 


每 个 数据 中 心 需要 部 署 一 些 主 时 钟 服务 器 (Master) ， 其 他 机 器 上 部 署 一 个 从 时 钟 
进程 ( Slave ) 来 从 主 时 钟 服务 器 同步 时 钟 信 息 。 有 的 主 时 钟 服务 器 用 GPS， 有 的 主 
时 钟 服务 器 用 原子 钟 。 每 个 从 时 钟 进程 每 隔 38 秒 会 从 若干 个 主 时 钟 服务 器 同步 时 钟 
言 息 。 主 时 钟 服务 器 自己 还 会 将 最 新 的 时 间 信息 和 本 地 时 钟 比 对 ， 排 除 掉 偏 差 比 较 
大 的 结果 。 


7.3.5 并 上 友 控 制 
Spanner 使 用 TrueTime 来 控制 并 友 ， 实 现 外 部 一 任性 ， 支持 以 下 几 种 事务 : 


e 读 写 事务 


eH, zPxmiBIB&E 
e 快 照 读 ， 客 户 端 提 供 时 间 范 围 
1 .不 考虑 TrueTime 


首先 ， 不 考虑 TrueTime 的 影响 ， 也 就 是 说 ， 假 设 TrueTime API 获 得 的 时 间 是 精确 
的 。 如 果 事 务 读 写 的 数据 只 属于 同一 个 Paxos 组 ， 那 么 ， 每 个 读 写 事务 的 执行 步骤 如 
F: 


1 ) 获取 系统 的 当前 时 间 戳 ; 

2) 执行 读 写 操作 ， 并 将 第 1 步 取 得 的 时 间 截 作为 事务 的 提交 版 本 。 

每 个 只 读 事务 的 执行 步骤 如 下 : 

1 ) 获取 系统 的 当前 时 间 戳 ， 作 为 读 事务 的 版 本 ; 

2 ) 执行 读 取 操 作 ， 返 回 客 户 端 所 有 提交 版 本 小 于 读 事务 版 本 的 事务 操作 结果 。 


快照 读 和 只 读 事务 的 区 别 在 于 : 快照 读 将 指定 读 事 务 的 版 本 ， 而 不 是 取 系 统 的 当前 
HEJER. 

如 果 事 务 读 写 的 数据 涉及 多 个 Paxos 组 ， 那 么 ， 对 于 读 写 事务 ， 需 要 执行 一 次 两 阶段 
提交 协议 ， 执 行 步 又 如 下 : 


1) Prepare : 客户 端 将 数据 发 往 多 个 Paxos 组 的 主 副本 ， 同 时 ， 协 调 者 主 副 本 发 起 
prepare 协 议 ， 请 求 其 他 的 参与 者 主 副 本 锁 住 需 要 操作 的 数据 。 


2) Commit : 协调 者 主 副本 友 起 Commit 协 议 ， 要 求 每 个 参与 者 主 副本 执行 提交 操作 
并 解除 Prepare 阶 段 锁 定 的 数据 。 协 调 者 主 副 本 可 以 将 它 的 当前 时 间 戳 作为 该 事务 
的 提交 版 本 ， 并 友 送 给 每 个 参与 者 主 副本 。 


只 读 事务 读 取 每 个 Paxos 组 中 提交 和 版 本 小 于 读 事务 版 本 的 事务 操作 结果 。 需 要 注意 的 
是 ， 只 读 事务 需要 保证 不 会 读 到 不 完整 的 事务 。 假 没有 一 个 读 写 事 务 修 改 了 两 个 
Paxos 组 : Paxos 组 A 和 Paxos 组 B,Paxos 组 A 上 的 修改 已 提交 ，Paxos 组 8 上 的 修改 还 
未 提交 。 那 么 ， 只 读 事务 会 发 现 Paxos 组 B 处 于 两 阶段 提交 协议 中 的 Prepare 阶 段 ， 
需要 等 待 一 会 ， 直 到 Paxos 组 B 上 的 修改 生效 后 才能 读 到 正确 的 数据 。 


2. 考 虑 TrueTime 


如 果 考 虑 TrueTime， 并 发 控制 变 得 复杂 。 这 里 的 核心 思想 在 于 ， 只 要 事务 T1 的 提交 
操作 早 于 事务 T2 的 开始 操作 ， 即 使 考虑 TrueTime API 的 误差 因素 ( -e 到 +e 之 间 ,ee 
值 平均 为 4ms ) ，Sspanner 也 能 保证 事务 T1 的 提交 版 本 小 于 事务 T2 的 提交 版 本 。 
Spanner 使 用 了 一 种 称 为 延迟 提交 ( Commit Wait ) 的 手段 ， 即 如 果 事 务 T1 的 提交 
版 本 为 时 间 戳 tcommit， 那 么 ， 事 务 T1 会 在 tcommit+e 之 后 才能 提交 。 另 外 ， 如 果 
事务 T2 开 始 的 绝对 时 间 为 tabs， 那 么 事务 T2 的 提交 版 本 至 少 为 tabs+e。 这 样 ， 就 保 
证 了 事务 T1 和 T2 之 间 严 格 的 顺序 ， 当 然 ， 这 也 意味 着 每 个 写 事 务 的 延 时 至 少 为 2e。 
从 这 一 点 也 可 以 看 出 ，spanner 实 现 功能 完备 的 全 球 数 据 库 是 付出 了 一 定 代价 的 ， 
设计 架构 时 不 能 盲目 崇拜 。 


7.3.6 数据 迁移 


目录 是 spanner 中 对 数据 分 区 、 复 制 和 迁移 的 基本 单位 ， 用 户 可 以 指定 一 个 目录 有 
多 少 个 副本 ， 分 别 存放 在 哪些 机 房 中 ， 例 如 将 用 尸 的 目录 存放 在 这 个 用 尸 所 在 地 区 


附近 的 几 个 机 房 中 。 


一 个 Paxos 组 包含 多 个 目录 ， 目 录 可 以 在 Paxos 组 之 间 移 动 。Spanner 移 动 一 个 目录 
一 般 出 于 以 下 几 种 考虑 : 


e 基 个 Paxos 组 的 负载 太 大 ， 需 要 切 分 ; 
e 将 数据 移动 到 离 用 户 更 近 的 地 方 ， 减 少 访问 延 时 ; 
e 把 经 常 一 起 访问 的 目录 放 进 同一 个 Paxos 组 。 


移动 目录 的 操作 在 后 人 台 进 行 ， 不 影响 前 台 的 客户 端 读 写 操作 。 一 般 来 说 ， 移 动 一 个 
56MB 的 目录 大 约 只 需要 几 秒 钟 时 间 。 实 现时 ， 首 先 将 目录 的 实际 数据 移动 到 指定 位 
置 ， 然 后 再 用 一 个 原子 操作 更 新 元 数据 ， 从 而 完成 整个 移动 过 程 。 


7.3.7 讨论 
Google 的 分 布 式 存储 系统 一 步 步 地 从 Bigtable 到 Megastore， 再 到 Spanner， 这 也 


印证 了 分 布 式 技术 和 传统 天 系数 据 库 技术 融合 的 必然 性 ， 即 底层 通过 分 布 式 拉 术 实 
现 可 扩展 性 ， 上 层 通 过 关系 数据 库 的 模型 和 接口 将 系统 的 功能 暴露 给 用 户 。 


阿里 巴巴 的 0ceanBase 系 统 在 设计 之 初 就 考虑 到 这 两 种 技术 融合 的 必然 性 ， 因 此 ， 
一 开始 就 将 系统 的 最 终 目标 定 为 : 可 扩展 的 关系 数据 库 。 目 前 ，0ceanBase 已 经 开 
上 发 完成 了 部 分 功能 并 在 阿里 巴巴 各 个 子 公司 获得 广泛 的 应 用 。 本 书 第 三 篇 将 详细 介 


绍 0ceanBase 的 技术 细节 。 


本 书 由 “ePUBw.COM” 整 理 ，ePUBw.COM 提供 最 新 最 全 的 优质 
电子 书 下 载 ! ! |! 


本 篇 内 容 

第 8 章 0ceanBase 架 构 初 探 
第 9 章 分 布 式 人 存储 引擎 

第 16 章 数据 库 功 能 


第 11 章 质量 保证 、 运 维 及 实践 


第 8 E OceanBaseZRfAg]Eg 


OceanBase 是 阿里 集团 研发 的 可 扩展 的 关系 数据 库 ， 实 现 了 数 干 亿 条 记录 、 数 百 TB 
数据 上 的 跨行 跨 表 事 务 ， 截 止 到 28612 年 8 月 ， 支 持 了 收藏 来、 直通 车 报表 、 天 猫 评 价 
等 0LTP 和 0LAP 在 线 业务 ， 线 上 数据 量 已 经 超过 一 干 亿 条 。 


从 模块 划分 的 角度 看 ，0ceanBase 可 以 划分 为 四 个 模块 : 主 控 服 务 器 RootServer、 
更 新 服务 器 UpdateSserver、 基 线 数据 服务 器 ChunkServer 以 及 合并 服务 器 
MergeServer。0ceanBase 系 统 内 部 按照 时 间 线 将 数据 划分 为 基线 数据 和 增 量 数 
据 ， 基 线 数据 是 只 读 的 ， 所 有 的 修改 更 新 到 增 量 数据 中 ， 系 统 内 部 通过 合并 操作 定 
期 将 增 量 数据 融合 到 基线 数据 中 。 本 章 介 绍 0ceanBase 系 统 的 设计 思路 和 整体 架 


淘宝 是 一 个 迅速 友 展 的 网 站 。 全 球 网 站 排名 公司 Alexa 提 供 的 数据 显示 ，2816 年 4 月 
27 日 ，Amazon、EBay 的 用 户 占 全 球 互联 网 用 户 的 自分 比分 别 为 3.47% 和 2.68X%， 而 
淘宝 的 用 户 占 全 球 互联 网 用 户 的 百分比 则 达到 了 4 .1%， 淘 宝 网 日 独立 访问 量 从 此 超 
过 了 Amazon 和 EBay。 


淘宝 的 数据 规模 及 其 访问 量 对 关系 数据 库 提出 了 很 大 挑战 : 数 百 亿 条 的 记录 、 数 十 
TB 的 数据 、 数 万 TPS、 数 十 万 QPS 让 传统 的 关系 数据库 不 堪 重 负 ， 单纯 的 硬件 升级 已 
经 无 法 使 问题 得 到 解决 ， 分 库 分 表 也 并 不 总 是 凑 效 。 下 面 来 看 一 个 实际 的 例子 。 


淘宝 收藏 夹 是 淘宝 线 上 应 用 之 一 ， 淘 宝 用 户 在 其 中 保存 上 自己 感 兴趣 的 宝贝 ( 即 商 
品 ， 此 外 用 户 也 可 以 收藏 感 兴 趣 的 店铺 ) 以 便 下 次 快速 访问 、 对 比 和 购买 等 ， 用 户 
可 以 展示 和 编辑 ( 添加 /删除 ) 目 己 的 收藏 。 


淘宝 收藏 夹 数据 库 包 含 了 收藏 info 表 ( 一 条 一 条 的 收藏 信息 ) 和 收藏 item 表 ( 被 收 
藏 的 宝贝 和 店铺 ) 等 : 


se 收藏 info 表 保存 收藏 信息 条 目 ， 数 百 亿 条 。 

se 收藏 item 表 保存 收藏 的 宝贝 和 店铺 的 详细 信息 ， 数 十 亿 条 。 
e 执 门 宝贝 可 能 被 多 达 数 十 万 买 家 收藏 。 

e 每 个 用 户 可 以 收藏 干 个 宝贝 。 

e 宝 贝 的 价格 、 收 藏 人 气 等 信息 随时 变化 。 


如 果 用 户 选择 按 宝 贝 价 格 排序 后 展示 ， 那 么 数据 库 需 要 从 收藏 item 表 中 读 取 收藏 的 
宝贝 的 价格 等 最 新 信息 ， 然 后 进行 排序 处 理 。 如 果 用 户 的 收藏 条 目 比 较 多 ( 例如 


40007& ) ， 那 么 查询 对 应 的 item 的 时 间 会 较 长 : 假设 如 果 平 均 每 条 item 查 询 时 间 是 
5ms， 则 4666 条 的 查询 时 间 可 能 达到 26s， 如 果真 如 此 ， 则 用 户 体验 会 很 差 。 


如 果 把 收藏 的 宝贝 的 详细 信息 实时 见 余 到 收藏 ijnfo 表 ， 则 上 述 查 询 收藏 -tem 表 的 操 
作 束 不 再 需要 了 。 但 是 ， 由 于 许多 热门 商品 可 能 有 几 干 到 几 十 万 人 收藏 ， 这些 热 门 
商品 的 价格 等 信息 的 变动 可 能 导致 收藏 info 表 的 大 量 修 改 ， 并 压 垮 数据 库 。 


为 此 ， 阿 里 巴巴 需要 研发 适合 互联 网 规模 的 分 布 式 数 据 库 ， 这 个 数据 库 不 仅 要 能 解 
决 收藏 夹 面 临 的 业务 挑战 ， 还 要 能 做 到 可 扩展 、 低 成 本 、 易 用 ， 并 能 够 应 用 到 更 多 
的 业务 场景 。 为 此 ， 淘宝 研发 了 干 亿 级 海量 数据 库 0ceanBase， 并 且 已 经 于 2011 年 8 
月 底 开 源 ( http://oceanbase.taobao.org/) 。 昌 然 距离 0ceanBase 开 源 已 经 超 
过 一 年 多 的 时 间 ， 但 0ceanBase 系 统 还 有 很 多 的 问题 ， 其 中 以 易 用 性 和 可 运 维 性 最 
为 严重 。0ceanBase 团 队 一 直 在 不 断 完 善 着 系统 ， 同 时 ， 我 们 也 很 乐意 把 设计 开 上 友 


过 程 中 的 一 些 经 验 分 享 出 来 。 
8.2 设计 思路 


OceanBase 的 目标 是 支持 数 百 TB 的 数据 量 以 及 数 十 万 TPS、 数 特 万 QPSs 的 访问 量 , 无 
论 是 数据 量 还 是 访问 量 ， 即 使 采用 非常 昂贵 的 小 型 机 甚至 是 大 型 机 ， 单 台 关 系数 据 
库 系 统 都 无 法 承受 。 


一 种 常见 的 做 法 是 根据 业务 特点 对 数据 库 进行 水 平 拆 分 ， 通 常 的 做 法 是 根据 某 个 业 
务 字段 ( 通 弟 取 用 户 编 号 ，user_id ) 哈 希 后 取 模 ,根据 取 模 的 结果 将 数据 分 布 到 
不 同 的 数据 库 服 务 器 上 ， 客 户 端 请 求 通过 数据 库 中间 层 路 由 到 不 同 的 分 区 。 这 种 方 
陈 目 前 还 存在 一 定 的 弊端 ， 如 下 所 示 : 


e 数 据 和 负载 增加 后 添加 机 器 的 操作 比较 复杂 ， 往 往 需要 人 工 介入 ; 


e 有 些 学 围 查 询 需 要 访问 几乎 所 有 的 分 区 ， 例如， 按照 user_id 分 区 ， 查询 收藏 了 一 
个 商品 的 所 有 用 户 需 要 访问 所 有 的 分 区 ; 


e 目 前 广泛 使 用 的 天 系数 据 库存 储 引 警 都 是 针对 机 械 硬 盘 的 特点 设计 的 ， 不 能 够 完全 
发 挥 新 硬件 ( SSD ) 的 能 力 。 


另外 一 种 做 法 是 参考 分 布 式 表 格 系统 的 做 法 ， 例 如 Google Bigtable 系 统 ， 将 大 表 
划分 为 几 万 、 几 十 万 甚至 几 百 万 个 子 表 ， 子 表 之 间 按 照 主键 有 序 ， 如 果 某 人 台 服 务 器 
发 生 故 障 ， 它 上 面 服务 的 数据 能 够 在 很 短 的 时 间 内 自动 迁移 到 集群 中 所 有 的 其 他 服 
务 器 。 这 种 万 式 解 决 了 可 扩展 性 的 问题 ， 少 量 突 友 的 服务 器 故障 或 者 增加 服务 器 对 
使 用 者 基本 是 透明 的 ， 能 够 轻松 应 对 促销 或 者 热点 事件 等 突 帮 流量 增长 。 另 外 ， 由 
于 子 表 是 按照 主键 有 序 分 布 的 ， 很 好 地 解决 了 范围 查询 的 问题 。 


万 事 有 其 利 必 有 一 浆 ， 分 布 式 表格 系统 虽然 解决 了 可 扩展 性 问题 ， 但 往往 无 法 支持 
事务 ， 例 如 Bigtable 只 支持 单行 事务 ， 和 针对 同一 个 user_id 下 的 多 条 记录 的 操作 都 
无 法 保证 原子 性 。 而 0ceanBase 希 望 能 够 支持 跨行 跨 表 事务 ， 这 样 使 用 起 来 会 比较 
方便 。 


最 直接 的 做 法 是 在 Bigtable 开 源 实现 ( 如 HBase 或 者 Hypertable ) 的 基础 上 引入 两 
阶段 提交 ( Two-phase Commit ) 协议 支持 分 布 式 事务 ， 这 种 思路 在 600og1le 的 
Percolator 系 统 中 得 到 了 体现 。 然 而 ，Percolator 系 统 中 事务 的 平均 响应 时 间 达 
到 2 ~ 5 秒 ， 只 能 应 用 在 类 似 网 页 建 库 这 样 的 半 线 上 业务 中 。 另 外 ，Bigtable 的 开源 
实现 也 不 够 成 熟 ， 单 台 服 务 器 能 够 支持 的 数据 量 有 限 ， 单 个 请 求 的 最 大 响应 时 间 很 
难得 到 保证 ， 机 器 故障 等 异常 处 理 机 制 也 有 很 多 比较 严重 的 问题 。 总 体 上 看 ， 这 种 
做 法 的 工作 量 和 难度 超出 了 项 目 组 的 承受 能 力 ， 因 此 ， 我 们 需要 根据 业务 特点 做 一 


些 定制 。 


通过 分 析 ， 我 们 友 现 ， 虽 然 在 线 业 务 的 数据 量 十 分 庞大 ， 例 如 几 十 亿 条 、 上 百 亿 条 
甚 全 更 多 记录 ， 但 最 近 一 段 时 间 ( 例如 一 天 ) 的 修改 量 往往 并 不 多 ， 通 剃 不 超过 几 
干 万 条 到 几 {Z 条 ， 因 此 ，0ceanBase 决 定 采 用 单 台 更 新 服务 器 来 记录 最 近 一 段 时 间 
的 修改 增 量 ， 而 以 前 的 数据 保持 不 变 ， 以 前 的 数据 称 为 基线 数据 。 基 线 数据 以 类 似 
分 布 式 文件 系统 的 万 式 存储 于 多 台 基 线 数据 服务 器 中 ， 每 次 查询 都 需要 把 基线 数据 
和 增 量 数据 融合 后 返回 给 客户 端 。 这 样 ， 写 事务 都 集中 人 在 单 台 更 新 服务 器 上 ， 吉 免 
了 复杂 的 分 布 式 事务 ， 高效 地 实现 了 跨行 跨 表 事务 ; 另外 ， 更 新 服务 器 上 的 修改 增 
量 能 够 定期 分 友 到 多 台 基 线 数据 服务 器 中 ， 避 免 成 为 抠 贷 ， 实现 了 良好 的 扩展 性 。 


当然 ， 单 台 更 新 服务 器 的 处 理 能 力 总 是 有 一 定 的 限制 。 因 此 ， 更 新 服务 器 的 硬件 配 
置 相对 较 好 ， 如 内 存 较 大 、 网 卡 及 CPU 较 好 ; 另外 ， 最 近 一 段 时 间 的 更 新 操作 往往 总 
是 能 够 存放 在 内 存 中 ， 在 软件 层面 也 针对 这 种 场景 做 了 大 量 的 优化 。 


8.3 系统 架构 
8.3.1 整体 架构 图 


OceanBase 的 整体 架构 如 图 8-1 所 示 。 











8-1 0ceanBase 整 体 架构 图 
OceanBase 由 如 下 几 个 部 分 组 成 : 


e 客 户 端 : 用 户 使 用 0ceanBase 的 方式 和 MySQL 数 据 库 完全 相同 ， 支持 JDBC、 客户 
端 访 问 ， 等 等 。 基 于 MySQL 数 据 库 开发 的 应 用 程序 、 工 具 能 够 直接 迁移 到 


OceanBase, 


eRootServer : 管理 集群 中 的 所 有 服务 器 ， 子 表 ( tablet ) 数据 分 布 以 及 副本 管 
理 。 Rootserver 一 般 为 一 主 一 备 ， 主 备 之 间 数 据 强 同步 。 


eUpdateServer : 存储 0ceanBase 系 统 的 增 量 更 新 数据 。UpdateServer 一 般 为 一 主 
一 备 ， 主 备 之 间 可 以 配置 不 同 的 同步 模式 。 部 署 时 ，UpdateServer 进 程 和 
RootServer 进 程 往往 共用 物理 服务 器 。 


eChunkServer : 存储 0ceanBase 系 统 的 基线 数据 。 基 线 数据 一 般 存 储 两 份 或 者 三 
份 ， 可 配置 。 


eMergeServer : 接收 并 解析 用 户 的 SQL 请 求 ， 经 过 词法 分 析 、 语 法 分 析 、 碍 询 优 化 
等 一 系列 操作 后 转发 给 相应 的 Chunkserver 或 者 updateserver。 如 果 请 求 的 数据 分 
布 在 多 台 ChunkServer 上 ，MergeServer 还 需要 对 多 台 ChunkServer 返 回 的 结果 进 

行 合并 。 客 户 端 和 Mergeserver 之 间 采 用 原生 的 MysQL 通 信 协 议 ，MySQL 客 户 端 可 以 


直接 访问 MergeServer。 


OceanBase 支 持 部 署 多 个 机 房 ， 每 个 机 房 部 署 一 个 包含 RootServer.、 


MergeServer、ChunkServer 以 及 UpdateServer 的 完整 OceanBase 集 群 ， 每 个 集群 


由 各 目的 RootServer 负 责 数据 划分 、 负 载 均衡 、 集 群 服务 器 管理 等 操作 ， 集 群 之 间 


数据 同步 通过 主 集群 的 主 UpdateServer 往 备 集群 同步 增 量 更 新 操作 日 志 实 现 。 客 户 
端 配 置 了 多 个 集群 的 RootServer 地 址 列表 ， 使 用 者 可 以 设置 每 个 集群 的 流量 分 配 比 
例 ， 客 户 闯 根据 这 个 比例 将 读 写 操 作 发 往 不 同 的 集群 。 图 8- 2 是 双 机 房 部 署 示意 图 。 
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8-2 OceanBase 双 机 房 部 署 
8.3.2 客户 端 
OceanBaseZz Fm EMergeServerjfa , ARAU TFIA Pm : 


eMySQLZ P Ìn : MergeServer 兼 容 MySQL 协 议 ，MySQL 客 户 端 及 相关 工具 ( 如 Java 
数据 库 访问 方式 JDBC ) 只 需要 将 服务 器 的 地 址 设置 为 任意 一 台 Merge-Server 的 地 


址 ， 融 可 以 直接 使 用 。 


eJ]ava 客 户 端 : 0ceanBase 内 部 部 署 了 多 人 台 MergeServer ,Java 客户 端 提供 对 
MySQL 标 准 JDBC Driver 的 封装 ， 并 提供 流量 分 配 、 负 和 载 均衡 、MergeServer 异 常 
处 理 等 功能 。 简 单 来 讲 ，Java 客 户 端 首先 按照 一 定 的 策略 定位 到 某 人 台 
MergeServer， 接 着 调用 MySsQL JDBC Driver 往 这 从 MergeServer 发 送 读 与 请 求 。 


Java 客 户 端 实 现 符 合 JDBC 标 准 ， 能 够 支持 Spring、iBatis 等 Java 编 程 框架 。 


eC 客户 新 : 0ceanBase 客户 端的 功能 和 Java 客 户 端 类 似 。 它 首先 按照 一 定 的 策略 
定位 到 某 台 Mergeserver， 接 着 调用 MySQL 标 准 C 客 户 端 往 这 台 Mergeserver 友 送 读 
写 请 求 。 客户 端的 接口 和 MySQL 标 准 C 客 户 端 接口 完全 相同 ， 因 此 ， 能 够 通过 
LD_PRELOAD 的 方式 将 应 用 程序 依赖 的 MysQL 标 准 C 客 户 端 替 换 为 OceanBase 客户 
端 ， 而 无 需 修改 应 用 程序 的 代码 。 


OceanBase 集 群 有 多 台 MergeSserver， 这些 MergeSserver 的 服务 器 地 址 存储 在 
OceanBase 服 务 器 端的 系统 表 ( 与 Oracle 的 系统 表 类 似 ， 存 储 0ceanBase 系 统 的 元 
数据 ) 内 。0ceanBase Java/C 客 户 端 首先 请 求 服务 器 端 获取 MergeServer 地 址 列 
表 ， 接 着 按照 一 定 的 策略 将 读 写 请 求 上 友 送 给 某 台 Mergeserver， 并 负责 对 出 现 故障 
的 MergeServer 进 行 容错 处 理 。 


Java/C 客 户 端 访问 OceanBase 的 流程 大 致 如 下 : 
1) 请 求 Rootserver 获 取 集 群 中 MergeServer 的 地 址 列表 。 


2) 按照 一 定 的 策略 选择 某 台 MergeServer 发 送 读 写 请 求 。 客 户 端 与 MergeSserver 之 
间 的 通信 协议 兼容 原生 的 MysQL 协 议 ， 因 此 ， 只 需要 调用 MySQL JDBC Driver 或 者 
MySQL C 客 户 端 这 样 的 标准 库 即 可 。 客 户 端 支 持 的 策略 主要 有 两 种 : 随机 以 及 一 致 


性 哈 希 。 一 致 性 哈 希 的 主要 目的 是 将 相同 的 S&L 请 求 友 送 到 同一 人 台 MergeServer , 75 
便 MergeServer 对 查询 结果 进行 缓存 。 


3 ) 如 果 请 求 MergeSserver 失 败 ， 则 从 MergeServer 列 表 中 重新 选择 一 台 
MergeServer 重 试 ; 如 果 请 求 某 台 Mergeserver 失 败 超过 一 定 的 次 数 ， 将 这 人 台 
MergeServer 加 入 黑 名 单 并 从 MergeServer 列 表 中 删除 。 另 外 ， 客 户 端 会 定期 请 求 
RootServer 更 新 MergeServer 地 址 列表 。 


如 果 0ceanBase 部 署 多 个 集群 ， 客 户 端 还 需要 处 理 多 个 集群 的 流量 分 配 问题 。 使 用 
者 可 以 设置 多 个 集群 之 间 的 流量 分 配 比例 ， 客 户 端 获取 到 流量 分 配 比例 后 ， 按 照 这 
个 比例 将 请 求 上 友 送 到 不 同 的 集群 。 


OceanBase 程 序 升级 版 本 时 ， 往 往 先 将 备 集群 的 读 取 流量 调整 为 9， 这 时 所 有 的 读 写 
请 求 都 只 发 往 主 集群 ， 接 着 升级 备 集群 的 程序 版 本 。 备 集群 升级 完成 后 将 流量 逐步 
切换 到 备 集群 观察 一 段 时 间 ， 如 果 没 有 出 现 异 常 ， 则 将 所 有 的 流量 切 到 备 集 群 ， 并 
将 备 集群 切换 为 主 集群 提供 写 服 务 。 原 来 的 主 集群 变 为 新 的 备 集群 ， 升 级 新 的 备 集 
群 的 程序 版 本 后 重新 分 配 主 备 集群 的 流量 比例 |。 


8.3.3 RootServer 
RootServer 的 功能 主要 包括 : 集群 管理 、 数 据 分 布 以 及 副本 管理 。 


RootServer 管 理 集 群 中 的 所 有 MergeServer、ChunkServer 以 及 UpdateServer。 
每 个 集群 内 部 同一 时 刻 只 人 允许 一 个 UpdateServer 提 供 写 服务 ， 这 个 UpdateServer 
成 为 主 Updateserver。 这 种 方式 通过 牺牲 一 定 的 可 用 性 获取 了 强 一 致 性 。 
RootSserver 通 过 租约 ( Lease ) 机 制 选择 唯一 的 主 UpdateSserver， 当 原先 的 主 
UpdateServer 友 生 故 障 后 ，Rootserver 能 够 在 原先 的 租约 失效 后 选择 一 台新 的 


UpdateServerfE7jzEUpdateServer, 534] , RootServer5MergeServer & 
ChunkServer 之 间 保 持 心 跳 ( heartbeat ) ， 从 而 能 够 感知 到 在 线 和 已 经 下 线 的 
MergeServer &ChunkSserver 机 器 列表 。 


OceanBase 内 部 使 用 主键 对 表格 中 的 数据 进行 排序 和 存储 ， 主 键 由 若干 列 组 成 并 且 
具有 了 唯一 性 。 在 0ceanBase 内 部 ， 基 线 数 据 按照 主键 排序 并 且 划 分 为 数据 量 大 致 相 
等 的 数据 范围 ， 称 为 子 表 ( tablet) 。 每 个 子 表 的 默认 大 小 是 256MB ( 可 配置 ) 。 
OceanBase 的 数据 分 布 方式 与 Bigtab1le 一 样 采 用 顺序 分 布 ， 不 同 的 是 ，0ceanBase 
没有 采用 根 表 ( RootTable) + 元 数据 表 ( MetaTable ) 两 级 索引 结构 ， 而 是 采用 根 
表 一 级 索引 结构 。 


如 图 8-3 所 示 ， 主 键 值 在 [1 ,1868] 之 间 的 表格 被 划分 为 四 个 子 表 : 1725, 26-50, 
51 ~ 86 以 及 81~ 1686。RootSserver 中 的 根 表 记录 了 每 个 子 表 所 在 的 ChunkSserver 位 
置信 息 ， 每 个 子 表 包含 多 个 副本 ( 一 般 为 三 个 副本 ， 可 配置 )， 分 布 在 多 台 
ChunkSserver 中 。 当 其 中 某 台 Chunkserver 发 生 故 障 时 ，RootServer 能 够 检测 到 ， 
并 且 触 发 对 这 人 台 ChunkSserver 上 的 子 表 增加 副本 的 操作 ; 另外 ，Rootserver 也 会 定 
期 执行 负载 均衡 ， 选 择 某 些 子 表 从 负载 较 高 的 机 器 迁移 到 负载 较 低 的 机 器 上 。 





E 键 范围 ，1~25 26-50 51-80 81-100 


8-3 基线 数据 子 表 划分 


RootServer 采 用 一 主 一 备 的 结构 ， 主 备 之 间 数 据 强 同步 ， 并 通过 Linux 


HA ( http://www. linux-ha.org ) 软件 实现 高 可 用 性 。 主 备 RootServer 之 间 共 享 
VIP， 当 主 RootServer 发 生 故 障 后 ，VIP 能 够 自动 漂移 到 备 RootServer 所 在 的 机 
器 ， 备 Rootserver 检 测 到 以 后 切换 为 主 Rootserver 提 供 服务 。 


8.3.4 MergeServer 


MergeServer 的 功能 主要 包括 : 协议 解析 、sQL 解 析 、 请 求 转 友 、 结 果 合 并 、 多 表 操 


作 等 。 


OceanBase 客 户 端 与 MergeServer 之 间 的 协议 为 MysQL 协 议 。MergeServer 首 先 解析 
MySQL 协 议 ， 从 中 提取 出 用 户 皮 送 的 SQL 语句 ， 接 着 进行 词法 分 析 和 语法 分 析 ， 生 成 

SQL 语句 的 逻辑 查询 计划 和 物理 查询 计划 ， 最 后 根据 物理 查询 计划 调用 OceanBase 内 

部 的 各 种 操作 符 。 


MergeServer 缓 仔 了 子 表 分 布 信息 ， 根 据 请 求 涉及 的 子 表 将 请 求 转发 给 该 子 表 所 在 
的 ChunkServer。 如 果 是 写 操作 ， 还 会 转 友 给 UpdateServer。 某 些 请 求 需 要 跨 多 个 
子 表 ， 此 时 MergeServer 会 将 请 求 拆 分 后 友 送 给 多 台 ChunkServer， 并 合并 这 些 
ChunkServer 返 回 的 结果 。 如 果 请 求 涉及 多 个 表格 ，MergeServer 需 要 首先 从 
Chunkserver 获 取 每 个 表格 的 数据 ， 接 着 再 执行 多 表 天 联 或 者 腐 套 查询 等 操作 。 


MergeSserver 文 持 并 发 请 求 多 台 Chunkserver， 即 将 多 个 请 求 发 给 多 台 
Chunkserver， 再 一 次 性 等 待 所 有 请 求 的 应 答 。 另 外 ， 在 SQL 执行 过 程 中 ， 如 果 某 个 
子 表 所 在 的 ChunkServer 出 现 故 障 ，MergeServer 会 将 请 求 转 友 给 该 子 表 的 其 他 副 
本 所 在 的 ChunkSserver。 这 样 ，ChunkServer 故 障 是 不 会 影响 用 户 查 询 的 。 


MergeServer 本 身 是 没有 状态 的 ， 因 此 ，MergeServer 宕 机 不 会 对 使 用 者 产生 影 
咱 ,客户 端 会 自动 将 友 生 故障 的 MergeServer 屏 洲 掉 。 


8.3.5 ChunkServer 


Chunkserver 的 功能 包括 : 存储 多 个 子 表 ， 提 供 读 取 服务 ， 执 行 定期 合并 以 及 数据 
分 友 。 


OceanBase 将 大 表 划 分 为 大 小 约 为 256MB 的 子 表 ， 每 个 子 表 由 一 个 或 者 多 个 SsTable 
组 成 ( 一般 为 一 个 ) ， 每 个 SSTable 由 多 个 块 ( Block， 大 小 为 4KB ~ 64KB 之 间 ， 可 
配置 ) 组 成 ， 数 据 在 SSTable 中 按照 主键 有 序 存储 。 查 找 某 一 行 数据 时 ， 需 要 首先 
定位 这 一 行 所 属 的 子 表 ， 接 着 在 相应 的 SSTable 中 执行 二 分 查找 。SSTable 支 持 两 种 
缓存 模式 ， 块 缓存 (Block Cache) 以 及 行 缓 仔 ( Row Cache ) 。 块 缓存 以 块 为 单 
位 缓存 最 近 读 取 的 数据 ， 行 缓存 以 行为 单位 缓存 最 近 读 取 的 数据 。 


MergeServer 将 每 个 子 表 的 读 取 请 求 友 送 到 子 表 所 在 的 Chunkserver , ChunkServer 
首先 读 取 SsTable 中 包含 的 基线 数据 ， 接 着 请 求 Updateserver 获 取 相 应 的 增 量 更 新 
数据 ， 并 将 基线 数据 与 增 量 更 新 融合 后 得 到 最 终结 果 。 


由 于 每 次 读 取 都 需要 从 updateserver 中 获取 最 新 的 增 量 更 新 ， 为 了 保证 读 取 性 能 ， 
需要 限制 UpdateServer 中 增 量 更 新 的 数据 量 ， 最 好 能 够 全 部 存放 在 内 存 中 。 
OceanBase 内 部 会 定期 触 友 合 并 或 者 数据 分 友 操 作 ， 在 这 个 过 程 中 ，ChunkServer 
将 从 updateserver 获 取 一 段 时 间 之 前 的 更 新 操作 。 通 常情 况 下 ，0ceanBase 集 群 会 
在 每 天 的 服务 低 峰 期 ( 凌晨 1:86 开 始 ， 可 配置 ) 执行 一 次 合并 操作 。 这 个 合并 操作 
往往 也 称 为 每 日 合并 。 


8.3.6 UpdateServer 


Updateserver 是 集群 中 唯一 能 够 接受 写 入 的 模块 ， 每 个 集群 中 只 有 一 个 主 Update- 
Server。UpdateServer 中 的 更 新 操作 首先 写 入 到 内 存 表 ， 当 内 存 表 的 数据 量 超过 


一 定 值 时 ， 可 以 生成 快照 文件 并 转 储 到 SSsD 中 。 人 快照 文件 的 组 织 方式 与 ChunkSserver 
中 的 SSTable 类 似 ， 因 此 ， 这些 快 照 文 件 也 称 为 SSTable。 另 外 ， 由 于 数据 行 的 某 些 
列 被 更 新 ， 某 些 列 没 被 更 新 ，SSTable 中 存储 的 数据 行 是 稀疏 的 ， 称 为 稀 踊 型 
SSTable, 


为 了 保证 可 靠 性 ， 主 UpdateServer 更 新 内 存 表 之 前 需要 首先 写 操 作 日 志 ， 并 同步 到 
备 UpdateServer。 当 主 UpdateServer 发 生 故 障 时 ，RootServer 上 维护 的 租约 将 失 
效 ， 此 时 ，Rootserver 将 从 备 UpdateSserver 列 表 中 选择 一 台 最 新 的 备 

UpdateSserver 切 换 为 主 updateSserver 继 续 提 供 写 服务 。UpdateSserver 宕 机 重启 后 


= 
Po 


由 于 集群 中 只 有 一 台 主 Updateserver 提 供 写 服务 ， 因 此 ，0ceanBase 很 容易 地 实现 
了 跨行 跨 表 事 务 ， 而 不 需要 采用 传统 的 两 阶段 提交 协议 。 当 然 ， 这 样 也 市 来 了 一 系 
列 的 问题 。 由 于 整个 集群 所 有 的 读 写 操作 都 必须 经 过 updateSserver,UpdateServer 
的 性 能 至 关 重 要 。0ceanBase 集 群 通过 定期 合并 和 数据 分 上 友 这 两 种 机 制 将 
UpdateServer 一 段 时 间 之 前 的 增 量 更 新 源源 不 断 地 分 散 到 ChunkServer , 而 
UpdateServer 只 需要 服务 最 新 一 小 段 时 间 新 增 的 数据 ， 这 些 数据 往往 可 以 全 部 存放 
在 内 存 中 。 另 外 ， 系 统 实现 时 也 需要 对 UpdateServer 的 内 存 操 作 、 网 络 框 架 、 磁 盘 
操作 做 大 量 的 优化 。 


8.4 以 构 齐 析 
8.4.1 一 致 性 选择 


Eric Brewer 教 授 的 CAP 理 论 指出 ， 在 满足 分 区 可 容忍 性 的 前 提 下 ， 一 致 性 和 可 用 性 


AERIS. 


里 然 目 前 大 量 的 互联 网 项 目 选 择 了 弱 一 致 性 ， 但 我 们 认为 这 是 底层 存储 系统 ， 比 如 
MySQL 数 据 库 ， 在 大 数据 量 和 高 并 发 需求 压力 之 下 的 无 奈 选 择 。 弱 一 致 性 给 应 用 带 来 
了 很 多 麻烦 ， 比 如 数据 不 一 致 时 需要 人 工 订正 数据 。 如 果 存 储 系统 既 能 够 满足 大 数 
据 量 和 高 并 发 的 需求 ， 又 能 够 提供 强 一 致 性 ， 且 硬件 成 本 相差 不 大 ， 用 户 将 之 不 犹 
豫 地 选择 它 。 强 一 致 性 将 大 大 简化 数据 库 的 管理 ， 应 用 程序 也 会 因此 而 简化 。 

此 ，0ceanBase 选 择 文 持 强 一 致 性 和 跨行 跨 表 事务 。 


OceanBase UpdateServer 为 主 备 高 可 用 架构 ， 修 改 操作 流程 如 下 : 
1) 将 修改 操作 的 操作 日 志 ( redo 日 志 ) 发 送 到 备 机 ; 

2 ) 将 修改 操作 的 操作 日 志 写 入 主机 硬盘 ， 

3 ) 将 操作 日 志 应 用 到 主机 的 内 存 表 中 ; 

4 ) 返回 客户 端 写 入 成 功 。 


OceanBase 要 求 将 操作 日 志 同 步 到 主 备 的 情况 下 才能 够 返回 客户 端 写 入 成 功 ， 即 使 
主机 出 现 故 障 ， 备 机 自动 切换 为 主机 ， 也 能 够 保证 新 的 主机 拥有 以 前 所 有 的 修改 操 
作 ， 严 格 保证 数据 不 丢失 。 另 外 ， 为 了 提高 可 用 性 ，0ceanBase 还 增加 了 一 种 机 
制 ， 如 果 主 机 往 备 机 同步 操作 日 志 失 败 ， 比 如 备 机 故障 或 者 主 备 之 间 网 络 故 障 ， 主 
机 可 以 将 备 机 从 同步 列表 中 剔除 ， 本 地 更 新 成 功 后 就 返回 客户 端 写 入 成 功 。 主 机 将 
备 机 剔除 前 需要 通知 RootServer， 后 续 如 果 主 机 故障 ，RootServer 能 够 避免 将 不 
同步 的 备 机 切换 为 主机 。 


OceanBase 的 高 可 用 机 制 保证 主机 、 备 机 以 及 主 备 之 间 网 络 三 者 之 中 的 任何 一 个 出 


现 故障 都 不 会 对 用 户 产 生 影响 ， 然 而 ， 如 果 三 者 之 中 的 两 个 同时 出 现 故 障 ， 系 统 可 
用 性 将 受到 影响 ， 但 仍然 保证 数据 不 丢失 。 如 果 应 用 对 可 用 性 要 求 特别 高 ， 可 以 增 
加 备 机 数量 ， 从 而 容忍 多 台 机 器 同时 出 现 故 障 的 情况 。 


OceanBase 主 备 同步 也 人 允许 配置 为 异步 模式 ， 支 持 最 终 一 任性 。 这 种 模式 一 般 用 来 
支持 异地 容 灾 。 例 如 ， 用户 请 求 通 过 标 州 主 站 的 机 房 提供 服务 ， 主 站 的 
UpdateServer 内 部 有 一 个 同步 线程 不 停 地 将 用 户 更 新 操作 友 送 到 青岛 机 房 。 如 果 杭 
州 机 房 整体 出 现 不 可 恢复 的 故障 ， 比 如 地 震 ， 还 能 够 通过 青岛 机 房 恢 复数 据 并 继续 


提供 服务 。 


另外 ，0ceanBase 所 有 写 事 务 最 终 都 落 到 updateserver， 而 Updateserver 逻 辑 上 
是 一 个 单 点 ， 支 持 跨 行 跨 表 事务 ， 实 现 上 借鉴 了 传统 关系 数据 库 的 做 法 。 


8.4.2 数据 结构 


OceanBase 数 据 分 为 基线 数据 和 增 量 数据 两 个 部 分 ， 基 线 数 据 分 布 在 多 台 
ChunkServer 上 ， 增 量 数据 全 部 存放 在 一 人 台 UpdateServer 上 。 如 图 8-5 所 示 ， 系 统 
中 有 5 个 子 表 ， 每 个 子 表 有 3 个 副本 ， 所 有 的 子 表 分 布 到 4 台 Chunkserver 上 。 
RootServer 中 维护 了 每 个 子 表 所 在 的 ChunkSserver 的 位 置信 息 ，UpdateServer 存 
储 了 这 5 个 子 表 的 增 量 更 新 。 


不 考虑 数据 复制 ， 基 线 数 据 的 数据 结构 如 下 : 
e 每 个 表格 按照 主键 组 成 一 颗 分 布 式 B+ 树 ， 主 键 由 铬 干 列 组 成 ; 


es 每 个 叶子 节点 包含 表格 一 个 前 开 后 闭 的 主键 学 围 (rk1，rk2] 内 的 数据 ; 
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8-5 OceanBase 数 据 结 构 


e 每 个 叶子 节操 称 为 





个 子 表 ( tablet )， 包 含 一 个 或 者 多 个 SSTable ; 


e 每 个 SSTable 内 部 按 主键 范围 有 序 划分 为 多 个 块 ( block ) HAERESI (block 


index) ; 

e 每 个 块 的 大 小 通常 在 4 ~ 64KB 之 间 并 内 建 块 内 的 行 索引 ; 

e 数 据 压 缩 以 块 为 单位 ， 压 缩 算法 由 用 户 指定 并 可 随时 变更 ; 

e 叶 子 节点 可 能 合并 或 者 分 裂 ; 

e 所 有 叶子 节点 基本 上 是 均匀 的 ， 随 机 地 分 布 在 多 台 ChunkServer 机 器 上 ; 


e 通 剃 情况 下 每 个 叶子 节点 有 2 ~ 3 个 副本 ; 


e 叶 子玉 点 是 负载 平衡 和 任务 调 大 的 基本 单元 ; 

e 支 持 布 隆 过 滤器 的 过 渡 。 

增 量 数据 的 数据 结构 如 下 : 

e 增 量 数据 按照 时 间 从 旧 到 新 划分 为 多 个 版 本 ; 

e 最 新 版 本 的 数据 为 一 颗 内 存 中 的 B+ 树 ， 称 为 活跃 MemTable ; 


e 用 户 的 修改 操作 写 入 活跃 MemTable， 到 达 一 定 大 小 后 ， 原 有 的 活跃 MemTable 将 被 
冰 结 ， 并 开局 新 的 活跃 MemTab1le 接 受 修 改 操 作 ; 


e 冰 结 的 MemTab1le 将 以 SSTab1le 的 形式 转 储 到 SsD 中 持久 化 ; 


每 个 SSTable 内 部 按 主键 范围 有 序 划分 为 多 个 块 并 内 建 块 厅 引 ,每 个 块 的 大 小 通常 
为 4~ 8KB 并 内 建 块 内 行 索引 ， 一 般 不 压缩 ， 


eUpdateServer 支 持 主 备 ， 增 量 数据 通常 为 2 个 副本 ， 每 个 副本 支持 RAID1 存 储 。 
8.4.3 可 靠 性 与 可 用 性 


分 布 式 系统 需要 处 理 各 种 故障 ， 例 如 ， 软 件 故 障 、 服 务 器 故障 、 网 络 故 障 、 数 据 中 
心 故 障 、 地 震 、 火 灾 等 。 与 其 他 分 布 式 存储 系统 一 样 ，O0ceanBase 通 过 见 余 的 方式 
保障 了 高 可 靠 性 和 高 可 用 性 。 方 法 如 下 所 示 : 


eOceanBase 在 ChunkServer 中 保存 了 基线 数据 的 多 个 副本 。 单 集群 部 署 时 一 般 会 配 
置 3 个 副本 ; 主 备 集群 部 署 时 一 般 会 配置 每 个 集群 2 个 副本 ， 总 共 4 个 副本 。 


eOceanBase 在 UpdateServer 中 保存 了 增 量 数据 的 多 个 副本 。UpdateServer 主 备 模 


式 下 主 备 两 人 台 机 器 各 保存 一 个 副本 ， 另 外 ， 每 台 机 器 都 通过 软件 的 方式 实现 了 
RAID1， 将 数据 目 动 复制 到 多 块 磁盘 ， 进 一 步 增强 了 可 靠 性 。 


eChunkServer 的 多 个 副本 可 以 同时 提供 服务 。Bigtable 以 及 HBase 这 样 的 系统 服 
务 节点 不 元 余 ， 如 果 服 务 器 出 现 故 障 ， 需 要 等 待 其 他 节点 恢复 成 功 才 能 提供 服务 ， 
而 OceanBase 多 个 Chunkserver 的 子 表 副本 数据 完全 一 致 ， 可 以 同时 提供 服务 。 


eUpdateserver 主 备 之 间 为 热 备 ， 同 一 时 刻 只 有 一 人 台 机 器 为 主 Updateserver 提 供 
写 服务 。 如 果 主 UpdateSserver 帮 生 故 障 ，0ceanBase 能 够 在 几 秒 中 之 内 ( 一 般 为 3 
~ 5 秒 ) 检测 到 并 将 服务 切换 到 备 机 ， 备 机 几乎 没有 预 热 时 间 。 


eOceanBase 和 存储 多 个 副本 并 没有 带 来 太 多 的 成 本 。 当 前 的 主流 服务 器 的 磁盘 容量 通 
常 是 富余 的 ， 例 如 ，3686GBx12 或 66866GBx12 的 服务 器 有 3TB 或 6TB 左 右 的 磁盘 总 容 
量 ， 但 存储 系统 单机 通常 只 能 服务 少 得 多 的 数据 量 。 


8.4.4 读 写 事务 


在 0ceanBase 系 统 中 ， 用 户 的 读 写 请 求 ， 即 读 写 事务 ， 都 友 给 MergeServer，。 
MergeServer 解 析 这 些 读 写 事务 的 内 容 ， 例 如 词法 和 语法 分 析 、schema 检 查 等 。 对 
于 只 读 事 务 ， 由 MergeServer 友 给 相应 的 ChunkSserver 分 别 执行 后 再 合并 每 个 
ChunkServer 的 执行 结果 ; 对 于 读 写 事务 ， 由 MergeServer 进 行 预 处 理 后 ， 友 送 给 


UpdateServer 执 行 。 
只 读 事务 执行 流程 如 下 : 


1 ) MergeServer 解 析 SQL 语 句 ， 词 法 分 析 、 语 法 分 析 、 预 处 理 ( schema 合 法 性 检 
查 、 权 限 检 查 、 数 据 类 型 检查 等 ) ， 最 后 生成 逻辑 执行 计划 和 物理 执行 计划 。 


2 ) 如 果 SQL 请 求 只 涉及 单 张 表 格 ，MergeServer 将 请 求 拆 分 后 同时 友 给 多 台 
ChunkServer 并 发 执行 ， 每 人 台 ChunkServer 将 读 取 的 部 分 结果 返回 MergeServer , 
由 MergeServer 来 执行 结果 合并 。 


3 ) 如 果 SQL 请 求 涉及 多 张 表 格 ，Mergeserver 还 需要 执行 联 表 、 府 套 查 询 等 操作 。 
4 ) Mergeserver 将 最 终结 果 返 回 给 客户 端 。 

读 写 事务 执行 流程 如 下 : 

1) 与 只 读 事务 相同 ，MergeServer 首 先 解析 SQL 请 求 ， 得 到 物理 执行 计划 。 


2 ) MergeServer 请 求 ChunkServer 获 取 需 要 读 取 的 基线 数据 ， 并 将 物理 执行 计划 和 
基线 数据 一 起 传 给 UpdateServer。 


3 ) UpdateServer 根 据 物理 执行 计划 执行 读 写 事务 ， 执 行 过 程 中 需要 使 用 
MergeServer 传 入 的 基线 数据 。 


4 ) UpdateServer 返 回 MergeServer 操 作成 功 或 者 失败 ，MergeServer 接 着 会 把 操 
作 结 果 返 回 客户 端 。 


例如 ， 假设 某 SQLi 语 句 为 : "update ti set c1=c1+1 where rowkey=1”， 即 将 
表格 t1 中 主键 为 1 的 c1 列 加 1， 这 一 行 数据 存储 在 ChunkSserver 中 ，c1 列 的 值 原来 为 
2612。 那 么 ，MergeServer 执 行 SQL 时 首先 从 Chunkserver 读 取 主 键 为 1 的 数据 行 的 
c1 列 ， 接 着 将 读 取 结 果 ( c1-2012 ) 以 及 SQL 语句 的 物理 执行 计划 一 起 友 大 给 
Updateserver。Updateserver 根 据 物 理 执行 计划 将 c1 加 1， 即 将 c1 变 为 2913 并 记 
录 到 内 存 表 ( MemTable) 中 。 当 然 ， 更 新 内 存 表 之 前 需要 记录 操作 日 志 。 


8.4.5 FREQTEBO 


OceanBase 架 构 的 优势 在 于 既 支 持 跨行 跨 表 事务 ， 又 支持 存储 服务 器 线性 扩展 。 当 
然 ， 这 个 架构 也 有 一 个 明显 的 缺陷 : Updateserver 单 点 ， 这 个 问题 限制 了 


OceanBase 集 群 的 整体 读 写 性 能 。 


下 面 从 内 存 容量 、 网 络 、 磁 盘 等 几 个 方面 分 析 Updateserver 的 读 写 性 能 。 其 实 大 部 
分 数据 库 每 天 的 修改 次 数 相当 有 限 ， 只 有 少数 修改 比较 频繁 的 数据 库 才 有 每 天 几 亿 
次 的 修改 次 数 。 另 外 ， 数 据 库 平均 每 次 修改 涉及 的 数据 量 很 少 ， 很 多 时 候 只 有 几 十 
个 字 节 到 几 百 个 字 节 。 假 设 数 据 库 每 天 更 新 1 亿 次 ， 平 均 每 次 需要 消耗 106 字 节 ， 
天 插入 1666 万 次 ， 平 均 每 次 需要 消耗 1060 字 节 ， 那么 ， 一 天 的 修改 量 为 : 1 亿 
x166+1666 万 x1666=26GB， 如 果 内 人 存 数据 结构 膨胀 2 倍 ， 占 用 内 存 只 有 46GB。 而 当 
前 主流 的 服务 器 都 可 以 配置 966B 内 存 ， 一些 高 档 的 服务 器 甚至 可 以 配置 192GB、 
384GB 乃 至 更 多 内 存 。 


从 上 面 的 分 析 可 以 看 出 ，UpdateServer 的 内 存 容量 一 般 不 会 成 为 翘 贷 。 然 而 ， 服 务 
器 的 内 存 毕竟 有 限 ， 实 际 应 用 中 仍然 可 能 出 现 修改 量 超出 内 存 的 情况 。 例 如 ， 淘 宝 
双 11 网 购 节 数据 库 修 改 量 暴涨 ， 某 些 特 殊 应 用 每 天 的 修改 次 数 特别 多 或 者 每 次 修改 
的 数据 量 特别 大 ，DBA 数 据 订 正 时 一 次 性 写 入 大 量 数据 。 为 此 ，UpdateSserver 设 计 
实现 了 几 种 方式 解决 内 存 容量 问题 ，UpdateServer 的 内 存 表达 到 一 定 大 小 时 ， 可 自 
动 或 者 手工 东 结 并 转 储 到 ssD 中 ， 另 外 ，O0ceanBase 支 持 通过 定期 合并 或 者 数据 分 发 
的 方式 将 UpdateServer 的 数据 分 散 到 集群 中 所 有 的 ChunkServer 机 器 中 ， 这 样 不 仅 
避免 了 UpdateServer 单 机 数据 容量 问题 ， 还 能 够 使 得 读 取 操作 往往 只 需要 访问 
UpdateServer 内 存 中 的 数据 ， 避 免 访 问 SSD 磁 盘 ， 提 高 了 读 取 性 能 。 


从 网 络 角 度 看 ， 假 设 每 秒 的 读 取 次 数 为 28 万 次 ， 每 次 需要 从 UpdateServer 中 获取 


166 字 节 ， 那 么 ， 读 取 操 作 占 用 的 UpdateServer 出 口 带 宽 为 : 2073x100-20MB , t 
远 没有 达到 干 兆 网 卡 审 宽 上 限 。 另 外 ，Updateserver 还 可 以 配置 多 块 干 兆 网 卡 或 者 
万 兆 网 卡 ， 例 如 ，0ceanBase 线 上 集群 一 般 给 Updateserver 配 置 4 块 干 兆 网 卡 。 当 
然 ， 如 果 软 件 层面 没有 做 好 ， 硬 件 特性 将 得 不 到 充分 友 挥 。 针 对 UpdateServer 全 内 
存 、 收 上 发 的 网 络 包 一 般 比 较 小 的 特点 ， 开 上 团队 对 updateserver 的 网 络 框架 做 了 专 
门 的 优化 ， 大 大 提高 了 每 秒 收发 网 络 包 的 个 数 ， 使 得 网 络 不 会 成 为 瓶颈 。 


从 磁盘 的 角度 看 ， 数 据 库 事务 需要 首先 将 操作 日 志 写 入 磁盘 。 如 果 每 次 写 入 都 需要 
将 数据 刷 入 磁盘 ， 而 一 块 SAS 磁 盘 每 秒 支 持 的 TOPS 很 难 超 过 368， 磁 盘 将 很 快 成 为 皂 
颈 。 为 了 解决 这 个 问题 ，Updateserver 在 硬件 上 会 配置 一 块 审 有 缓 仓 异 块 的 RAID 
卡 ，Updateserver 写 操作 日 志 只 需要 写 入 到 RAID 卡 的 缓存 模块 即 可 ， 延 时 可 以 控制 
在 1 之 秒 之 内 。RAID 卡 带电 池 ， 如果 UpdateServer 友 生 故 障 ， 比 如 机 器 突然 停电 ， 
RAID 卡 能 够 确保 将 缓存 中 的 数据 刷 入 磁盘 ， 不 会 出 现 于 数据 的 情况 。 另 外 , 
UpdateServer 还 实现 了 写 事务 的 成 组 提交 机 制 ， 将 多 个 用 户 写 操 作 闫 成 一 批 一 次 性 


提交 ， 进 一 步 减少 磁盘 10 次 数 。 
8.4.6 SSD 支 持 


磁盘 随机 I0 是 存储 系统 性 能 的 决定 因素 ， 传 统 的 SAS 盘 能 够 提供 的 IOPs 不 超过 366。 
关系 数据 库 一 般 采 用 高 速 缓存 ( Buffer Cache) [1] 的 方式 缓解 这 个 问题 ， 读 取 操 
作 将 磁盘 中 的 页 面 缓存 到 高 速 缓存 中 ， 并 通过 LRU 或 者 类 似 的 方式 淘汰 不 经 常 访 问 的 
页 面 ; 同样 ， 写 入 操作 也 是 将 数据 写 入 到 高 速 缓存 中 ， 由 高 速 缓存 按照 一 定 的 策略 
将 内 存 中 页 面 的 内 容 刷 入 磁盘 。 这 种 方式 面临 一 些 问题 ， 例 如 ，Cache 冷 启动 问题 ， 
即 数 据 库 刚 启动 时 性 能 很 差 ， 需要 将 读 取 流量 逐步 切入 。 另 外 ， 这 种 方式 不 适合 写 
入 特别 多 的 场景 。 


最 近 几 年 ，sSD 磁 盘 取 得 了 很 大 的 进展 ， 它 不 仅 提 供 了 非常 好 的 随机 读 取 性 能 ， 功 耗 
也 非常 低 ， 大 有 取代 传统 机 械 磁盘 之 势 。 一 块 普通 的 SSD 磁 盘 可 以 提供 358868 IOPS 
甚至 更 高 ， 并 提供 38eMB/s 或 以 上 的 读 出 带宽 。 然 而 ，SSD 盘 的 随机 写 性 能 并 不 理 
想 。 这 是 因为 ， 尽 管 SSD 的 读 和 写 以 页 ( page， 例 如 4KB，8KB 等 ) 为 单位 ， 但 SSD 写 
入 前 需要 首先 擦 除 已 有 内 容 ， 而 擦 除 以 块 ( block ) 为 单位 ,一 个 块 由 若干 个 连续 的 
页 组 成 ， 大 小 通常 在 512KB ~ 2MB。 假 如 写 入 的 页 有 内 容 ， 即 使 只 写 入 一 个 字 节 ， 
SSD 也 需要 擦 除 整 个 512KB ~ 2MB 大 小 的 块 ， 然 后 再 写 入 整个 页 的 内 容 ， 这 就 是 SSD 的 
写 入 放大 效应 。 虽 然 SsD 硬 件 厂 商都 针对 这 个 问题 做 了 一 些 优化 ， 但 整体 上 看 ， 随 机 
写 入 不 能 发 挥 ssp 的 优势 。 


OceanBase 设 计 之 初 束 认为 SSD 为 大 势 所 趋 ， 整 个 系统 设计 时 完全 握 弃 了 随机 写 ， 除 
了 操作 日 志 总 是 顺序 追加 写 入 到 普通 SAS 盘 上 ， 剩 下 的 写 请 求 都 是 对 响应 时 间 要 求 不 
是 很 高 的 批量 顺序 写 ， SSD 盘 可 以 轻松 应 对 ， 而 大 量 查询 请 求 的 随机 读 ， 则 友 挥 了 
SSD 民 好 的 随机 读 的 特性 。 握 弃 随 机 写 ， 采 用 批量 的 顺序 写 ， 也 使 得 固态 盘 的 使 用 寿 
命 不 再 成 为 问题 ， 主 流 SSD 盘 使 用 MLC SSD 芯 片 ， 而 MLC 号 称 可 以 擦 写 1 万 次 ( SLC 可 
以 擦 写 16 万 次 ， 但 因 成 本 高 而 较 少 使 用 ) ， 即 使 按 最 保守 的 25868 次 擦 写 次 数 计算 ， 
而 且 每 天 全 部 掠 写 一 遍 ， 其 使 用 寿命 为 2566/365=6. 8 年 。 


[1] 这 个 机 制 在 Oracle 数 据 库 中 称 为 Buffer Cache， 在 MySQL 数 据 库 中 称 为 Buffer 
Poo1， 用 于 缓 仓 磁盘 中 的 页 面 。 


8.4.7 数据 正确 性 


数据 丢失 或 者 数据 错误 对 于 存储 系统 来 说 是 一 种 灾难 。 前 面 8.4.1 节 中 已 经 提 到 ， 
OceanBase 设 计 为 强 一 致 性 系统 ， 设 计 方 案 上 保证 不 丢 数据 。 然 而 ，TCP 协 议 传输 、 
磁盘 读 写 都 可 能 出 现 数据 错误 ， 程 序 Bug 则 更 为 常见 。 为 了 防止 各 种 因素 导致 的 数据 


损毁 ，O0ceanBase 采 取 了 以 下 数据 校 验 措施 : 


e 数 据 存储 校 验 。 每 个 存储 记录 ( 通常 是 几 KB 到 几 十 KB ) 同时 保存 64 位 CRC 校 验 码 ， 
数据 被 访问 时 ， 重 新 计算 和 比 对 校 验 码 。 


e 数 据 传输 校 验 。 每 个 传输 记录 同时 传输 64 位 CRC 校 验 码 ， 数 据 被 接收 后 ， 重 新 计算 
和 比 对 校 验 码 。 


e 数 据 镜 像 校 验 。UpdateServer 在 机 群 内 有 主 UpdateServer 和 和 备 UpdateServer , 
集群 | 间 有 主 集群 和 备 集群 ， 这 些 UpdateServer 的 内 存 表 ( MemTable ) 必须 保持 一 
致 。 为 此 ，UpdateServer 为 MemTable 生 成 一 个 校 验 码 ，MemTable 每 次 更 新 时 ， 校 
验 码 同步 更 新 并 记录 在 对 应 的 操作 日 志 中 。 备 UpdateServer 收 到 操作 日 志 并 重 放 到 
MemTable 时 ， 也 同步 更 新 MemTable 校 验 码 并 与 接收 到 的 校 验 码 对 照 。 
UpdateServer 重 新 启动 后 重 放 日 志 恢 复 MemTable 时 也 同步 更 新 MemTable 校 验 码 并 
与 保存 在 每 条 操作 日 志 中 的 校 验 码 对 照 。 


e 数 据 副 本 校 验 。 定 期 合并 时 ， 新 的 子 表 由 各 个 ChunkServer 独 立地 融合 | 日 的 子 表 中 
的 SSTable 与 冻结 的 MemTable 而 生成 ， 如 果 友 生 任 何 异常 或 者 错误 ( 比如 程序 
bug) ， 同 一 子 表 的 多 个 副本 可 能 不 一 致 ， 则 这 种 不 一 致 可 能 随 着 定期 合并 而 逐步 累 
积 或 扩散 且 很 难 被 友 现 ， 即 使 被 察 完 ， 也 可 能 因为 需要 追溯 较 长 时 间 而 难以 定位 到 
源头 。 为 了 防止 这 种 情况 出 现 ，ChunkServer 在 定期 合并 生成 新 的 子 表 时 ， 也 同时 
为 每 个 子 表 生 成 一 个 校 验 码 ， 并 随 新 子 表 汇报 给 RootServer， 以 便 RootServer 核 
对 同一 子 表 不 同 副 本 的 校 验 码 。 


8.4.8 分 层 结构 


OceanBase 对 外 提供 的 是 与 关系 数据 库 一 样 的 SQL 操作 接口 ， 而 内 部 却 实现 成 一 个 线 


性 可 扩展 的 分 布 式 系统 。 系 统 从 逻辑 实现 上 可 以 分 为 两 个 层次 : 分 布 式 仔 储 引 擎 层 
以 及 数据 库 功 能 层 。 


OceanBase 一 期 只 实现 了 分 布 式 存储 引擎 ， 这 个 存储 引擎 支持 如 下 特性 : 


e 文 持 分 布 式 数 据 结构 ， 基 线 数据 逻辑 上 构成 一 颗 分 布 式 B+ 树 ， 增 量 数据 为 内 人 存 中 的 
B+ 树 ; 


e 文 持 目前 0ceanBase 的 所 有 分 布 式 特性 ， 包括 数据 分 布 、 负 载 均衡 、 主 备 同 步 、 容 
错 、 目 动 增加 /减少 服务 器 等 ; 


e 支 持 根 据 主键 更 新 、 插 入 、 删 除 、 随 机 读 取 一 条 记录 ， 另外， 支持 根据 主键 范围 顺 
序 查 找 一 段 学 围 的 记录 。 


二 期 的 0ceanBase 版 本 在 分 布 式 存储 引擎 之 上 增加 了 SsQL 支 持 : 


e 文 持 SQL 语言 以 及 MySQL 协 议 ，MySQL 客 户 端 可 以 直接 访问 ; 


。 支 持 读 写 事务 ; 
。 支 持 多 版 本 并 发 控制 ; 


e 又 持 读 事 务 并 友 执 行 。 


从 另外 一 个 角度 看 ，O0ceanBase 融 合 了 分 布 式 存储 系统 和 关系 数据 库 这 两 种 技术 。 
通过 分 布 式 存储 技术 将 基线 数据 分 布 到 多 台 Chunkserver， 实 现 数据 复制 、 负 载 均 
衡 、 服 务 器 故障 检测 与 自动 容错 ， 等 等 ; Updateserver 相 当 于 一 个 高 性 能 的 内 存 数 
据 库 ， 底 层 采 用 关系 数据 库 技术 实现 。 我 们 后 来 友 现 ， 有 一 个 号 称 “ 世 界 上 最 快 的 
内 人 存 数 据 库 ”MemsQL 采 用 了 和 0ceanBase UpdateServer 类 似 的 设计 ， 在 拥有 64 个 


CPU 核心 的 服务 器 上 实现 了 每 秒 156 万 次 单行 写 事务 。0ceanBase 相 当 于 
GFS«MemSQL ,Chunkserver 的 实现 类 似 GFs,Updateserver 的 实现 类 似 MemsQL， 目 
标 是 成 为 可 扩展 的 、 支 持 每 秒 百 万 级 单行 事务 操作 的 分 布 式 数据 库 。 


后 续 将 分 为 两 章 ， 分 别 讲述 0ceanBase 分 布 式 存储 引擎 层 以 及 数据 库 功能 层 的 实现 


第 9 m 分 布 式 仔 储 引 擎 


分 布 式 仔 储 引 警 层 负责 处 理 分 布 式 系统 中 的 各 种 问题 ， 例 如 数据 分 布 、 负 载 均衡 、 
容错 、 一 致 性 协议 等 。 与 其 他 分 布 式 存储 系统 类 似 ， 分 布 式 存储 引 掌 层 支 持 根 据 主 
键 更 新 、 插 入 、 删 除 、 随 机 读 取 以 及 范围 查找 等 操作 ， 数据 库 功 能 层 构 建 在 分 布 式 
存储 引擎 层 之 上 。 


分 布 式 存储 引 警 层 包 含 三 个 模块 : RootServer、UpdateSserver 以 及 
Chunkserver。 其 中 ，RootSserver 用 于 整体 控制 ， 实 现 子 表 分 布 、 副 本 复制 、 负 载 
均衡 、 机 器 管理 以 及 Schema 管理 ; Updateserver 用 于 仓储 增 量 数据 ， 数 据 结构 为 
一 个 内 存 B 树 ， 并 通过 主 备 实时 同步 实现 高 可 用 ， 另 外 ，UpdateServer 的 网 络 框架 
也 经 过 专门 的 优化 ; ChunkServer 用 于 存储 基线 数据 ， 基 线 数据 按照 主键 有 序 划分 
为 一 个 个 子 表 ， 每 个 子 表 在 ChunkSserver 上 和 存储 了 一 个 或 者 多 个 SsTable， 另外， 
定期 合并 和 数据 分 友 的 主要 逻辑 也 由 Chunkserver 实 现 。 


OceanBase 包 含 一 个 公共 模块 ， 包 含 其 他 模块 共用 的 网 络 框 染 、 内 存 池 、 任 务 队 
列 、 锁 、 基 础 数据 结构 等 ， 本 章 将 介绍 分 布 式 存储 引 人 擎 以 及 公共 模块 的 实现 。 


9.1 公共 模块 


OceanBase 源 代码 中 有 一 个 公共 模块 ， 包 含 其 他 模块 需要 的 公共 类 ， 例 如 公共 数据 
结构 、 内 存 管理 、 锁 、 任 务 队列 、RPC 框 染 、 压 缩 / 解 压缩 等 。 下 面 介 绍 其 中 部 分 类 
的 设计 思路 。 


9.1.1 内 存 管理 


内 存 管 理 是 C++ 高 性 能 服务 器 的 核心 问题 。 一 些 通 用 的 内 存 管理 库 ， 比 如 Google 
TCMalloc， 在 内 存 申请 /释放 速度 、 小 内 存 管理 、 锁 开销 等 方面 都 已 经 做 得 相当 章 
越 了 ， 然 而 ， 我 们 并 没有 采用 。 这 是 因为 ， 通 用 内 存 管理 库 在 性 能 上 毕竟 不 如 专用 
的 内 存 池 ,更 为 严重 的 问题 是 ， 它 训 励 了 开发 人 员 忽 视 内 存 管理 的 陋习 ， 比 如 在 服 
务 器 程序 中 滥用 C++ 标 准 模 板 库 (STL ) 。 


在 分 布 式 存储 系统 开发 初期 ， 内 存 相 关 的 Bug 相 当 常 见 ， 比如 内 存 越 界 、 服 务 器 出 现 
Core Dump， 这 些 Bug 都 非常 难以 调试 。 因 此 ， 这 个 时 期 内 存 管理 的 首要 问题 并 不 是 
高 效 ， 而 是 可 控 性 ， 并 防止 内 存 碎片 。 


OceanBase 系 统 有 一 个 全 局 的 定 长 内 存 池 ， 这 个 内 存 池 维 护 了 由 64KB 大 小 的 定 长 内 
存 块 组 成 的 空 闪 链表， 其 工作 原理 如 下 : 


e 如 果 申 请 的 内 存 不 超过 64KB， 尝 试 从 空 闪 链表 中 获取 一 个 64KB 的 内 存 块 返回 给 申 
请 者 ; 如 果 空 闲 链表 为 空 ， 需 要 首先 从 操作 系统 中 申请 一 批 大 小 为 64KB 的 内 存 块 加 
入 空 亲 链表。 释放 时 将 64KB 的 内 存 块 加 入 到 空间 链表 中 以 便 下 次 重用 。 


e 如 果 申 请 的 内 存 超过 64KB， 和 直接 调用 G1ibc 的 内 存 分 配 ( malloc ) BŽ, PRF 
系统 申请 用 户 所 需 大 小 的 内 存 块 。 释 放 时 直接 调用 G1libc 的 内 存 释放 ( free ) ER 
数 ， 将 内 存 块 归还 操作 系统 。 


OceanBase 的 全 局 内 存 池 实现 简单 ， 但 内 存 使 用 率 比 较 低 ， 即 使 申请 几 个 字 节 的 内 
仔 ， 也 需要 占用 大 小 为 64KB 的 内 存 块 。 因 此 ， 全 局 内 存 池 不 适合 管理 小 块 内 存 , 
个 需要 申请 内 存 的 模块 ， 比 如 UpdateServer 中 的 MemTable ,ChunkServer 中 的 缓存 
等 ， 都 只 能 从 全 局 内 存 池 中 申请 大 块 内 存 ， 每 个 模块 内 部 再 实现 专用 的 内 存 池 。 
个 线程 处 理 读 写 请 求 时 需要 使 用 临时 内 存 ， 为 了 提高 效率 ， 每 个 线程 会 缓存 若干 个 
大 小 分 别 为 64KB 和 2MB 的 内 存 块 ， 每 个 线程 忌 是 首先 尝试 从 线程 局 部 缓存 中 申请 内 
仔 ， 如 果 申 请 不 到 ， 再 从 全 局 内 存 池 中 申请 。 


class ObIAllocator 


{ 

public: 

// 内 存 申请 接口 

virtual void*alloc(const int64 t sz)-0; 
// 内 存 释放 接口 

virtual void free(void*ptr)=0; 

}; 

class ObMalloc:public ObIAllocator 


public: 


// 设 置 模块 号 


void set mod id(int32 t mod id); 


// 申 请 大 小 为 sz 的 内 存 块 


void*alloc(const int64 t sz); 


// 释 放 内 存 


void free(void*ptr); 


class ObTCMalloc:public ObIAllocator 


public: 


// 设 置 模块 号 


void set mod id(int32 t mod id); 


// 申 请 大 小 为 sz 的 内 存 块 


void*alloc(const int64 t sz); 


// 释 放 内 存 


void free(void*ptr); 


) 


0ObIA11ocator 是 内 人 存 管理 器 的 接口 ， 包 含 a11oc 和 free 两 个 方法 。0bMalloc 和 
0bTCMal1oc 是 两 个 实现 了 0bIA11ocator 接 口 的 全 局 内 和 存 池 ， 不 同 点 人 在 于 , 
ObMalloc 不 支持 线程 缓存 ，0bTCMalloc 支 持 线程 缓存 。0bTCMalloc 首 先 尝 试 从 线 
程 局 部 的 空 闪 链表 申请 内 存 块 ， 如 果 申 请 不 到 ， 再 通过 0bMalloc 的 alloc 方 法 申 
请 。 释 放 内 存 时 ， 如 果 没 有 超出 线程 缓存 的 内 存 块 个 数 限制 ， 则 将 内 存 块 还 给 线程 
局 部 的 空闲 链表 ; 否则 ， 通 过 obMalloc 的 free 方 法 释放 。 另 外 ， 人 允许 通过 
set_mod_id 函 数 设置 申 请 者 所 在 的 模块 编号 ， 便 于 统计 每 个 模块 的 内 存 使 用 情况 。 


全 局 内 存 池 的 意义 如 下 : 


se 全 局 内 存 池 可 以 统计 每 个 模块 的 内 存 使 用 情况 ， 如 果 出 现 内 存 泄露 ,可 以 很 快 定位 
到 友 生 问题 的 模块 。 


e 全 局 内 存 池 可 用 于 辅助 调试 。 例 如 ， 可 以 将 全 局 内 存 池 中 申请 到 的 内 存 块 按 字 节 填 
充 为 某 个 非法 的 值 ( 比如 exFE ) ， 当 出 现 内 存 越界 等 问题 时 ， 服务器 程序 会 很 快 在 
出 现 问 题 的 位 置 Core Dump， 而 不 是 带 着 错误 运行 一 段 时 间 后 才 Core Dump， 从 而 


方便 问题 定位 。 


忆 而 言 之 ，0ceanBase 的 内 存 管理 没有 玉 用 高 深 的 技术 ， 也 没有 做 到 通用 或 者 最 
优 ，, 但 是 很 好 地 满足 了 服务 器 程序 开发 的 两 个 最 主要 的 需求 : 可 探 性 以 及 没有 内 存 


WE. 


9.1.2 基础 数据 结构 


了 


1. 哈 希 表 


为 了 提高 随机 读 取 性 能 ，UpdateServer 支 持 创建 哈 希 索引 ，, 这 个 哈 希 索引 结构 就 是 
LightyHashMap， 代 码 如 下 : 


template < typename Key,typename Value > 


class LightyHashMap 


public: 

// 插 入 一 个 < key , value > 对 到 哈 希 表 

inline int insert(const Key&key,const Value&value); 
// 根 据 key 碍 找 value 

inline int get(const Key&key,Value&value); 


// 根 据 key 删 除 一 个 < key , value > 对 ， 如 果 value 不 为 空 ， 那 么 ， 保 存 删除 的 值 到 
value 中 


inline int erase(const Key&key,Value*value=NULL); 
private: 


struct Node 


Key key; 


Value value; 

union 

{ 

Node*next; 

int64 t flag; 

}; 

}; 

Node*buckets_;// 哈 希 桶 指针 

BitLock bit_lock_;// 位 锁 ， 用 于 保护 哈 希 桶 
}; 


LightyHashMap 采 用 链 式 冲突 处 理 方法 ， 即 将 所 有 哈 希 值 相同 的 < key , value > 对 
链 到 同一 个 哈 希 桶 中 ， 它 包含 如 下 三 个 方法 : 


einsert : 往 哈 希 表 中 插入 一 个 < key, value > 对 。 这 个 函数 首先 根据 key 的 哈 希 值 
得 到 桶 号 ， 接 着 ， 往 哈 希 桶 中 插入 一 个 包含 key 和 value 值 的 Node 节 点 。 


eget : 根据 key 查 找 value。 这 个 遂 数 首先 根据 key 的 哈 希 值得 到 桶 号 ， 接 着 ， 亿 历 
对 应 的 链表 ， 找 到 与 传 入 key 相 同 的 Node 节 点 ， 返 回 其 中 的 value 值 。 


eerase : 根据 key 删 除 一 个 < key,value > 对 。 这 个 函数 首先 根据 key 的 哈 希 值得 到 


LightyHashMap 设 计 用 来 存储 几 生 万 甚至 几 亿 个 元 素 ， 它 与 普通 哈 希 表 的 不 同 点 在 
于 以 下 两 点 : 


1 ) 位 锁 ( BitLock ) : LightyHashMap 通 过 BitLock 实 现 哈 希 桶 的 锁 结 构 ， 每 个 哈 
希 桶 的 锁 结构 只 需要 占用 一 个 位 (Bit). 。 如 果 哈 希 桶 对 应 的 位 锁 值 为 9， 表 示 没 有 
锁 冲 突 ; 人 否则， 表示 出 现 锁 冲 突 。 需 要 注意 的 是 ，LightyHashMap 没 有 区 分 读 锁 和 
写 锁 ， 多 个 get 请 求 也 是 冲突 的 。 可 以 对 LightyHashMap 的 BitLock 做 一 些 改 进 ， 例 
如 用 两 个 位 ( Bit) 表示 哈 希 梢 对 应 的 锁 ， 其 中 一 个 位 表示 是 否 有 读 冲 突 ， 另 外 一 个 


位 表示 是 否 有 写 冲 突 。 

2) 延迟 初始 化 (Lazy Initialization ) : LightyHashMap 的 哈 希 桶 个 数 往往 特 
别 多 ( 默认 为 1666 万 个 ) ， 即 使 仪 仪 对 所 有 哈 希 桶 执行 一 次 memset 操 作 ， 消 耗 的 时 
间 也 是 相当 可 观 的 。 因 此 ，LightyHashMap 采 用 延迟 初始 化 策略 ， 即 将 哈 希 桶 划分 
为 多 个 单元 ， 默 认 情 况 下 每 个 单元 包含 65536 个 哈 希 桶 。 每 次 执行 jnsert、get 或 者 
erase 操 作 时 都 会 判断 哈 希 桶 所 属 的 单元 是 否 已 经 初始 化 ， 如 果 未 初始 化 ， 则 对 该 单 
元 内 的 所 有 哈 希 桶 执行 初始 化 操作 。 

2.B 树 

UpdateSserver 的 MemTab1le 结 构 底 层 采 用 B 树 结构 索引 其 中 的 数据 行 ， 代 码 如 下 : 


template<class K,class V,class Alloc» 


class BTreeBase 


public: 

// 把 < key, value > 对 加 到 B 树 中 ，overwrite 人 参数 表示 是 人 否 履 盖 原 有 值 

int put(const K&key,const V&value,const bool overwrite-false); 
// 获 取 key 对 应 的 value 

int get(const K&key,V&value); 

// 获 取 扫 摘 操 作 摘 述 符 

int get scan handle(TScanHandle &handle); 

/设置 扫 摘 的 数据 范围 


int set key range(TScanHandle&handle,const K&start key,int32 t 


start exclude,const K&end key,int32 t end exclude); 
// 读 取 下 一 行 数据 

int get next(TScanHandle&handle,K&key,V&value); 
}; 

支持 的 功能 如 下 : 

1) Put : 插入 一 个 < key, value > XJ, 


2) Get : 根据 key 获 取 对 应 的 value。 


3) Scan : 扫描 一 段 范 围 内 的 数据 行 。 首 先 ， 调 用 get_scan_handle 获 取 扫 描 操作 
描述 符 ， 其 次 ， 调 用 set_key_range 设 置 扫描 的 数据 范围 ， 最 后 ， 不 断 地 调用 
get_next 读 取 下 一 行 数据 直到 全 部 读 完 。 

B 树 支持 多 线程 并 发 修改 。 如 图 9-1 所 示 ， 往 MemTable 插 入 数据 行 ( Data ) 时 ， 将 修 
改 其 B 树 索引 结构 ( Index) ， 分 为 两 种 情况 : 

e 两 个 线程 分 别 插入 Data1 和 Data2 : 由 于 Datal 和 Data2 属 于 不 同 的 索引 节点 ， 插 入 
Datal 和 Data2 将 影响 B 树 的 不 同 部 分 ， 两 个 线程 可 以 并 友 执 行 ， 不 会 产生 冲突 。 

e 两 个 线程 分 别 插入 Data2 和 Data3 : 由 于 Data2 和 Data3 属 于 相同 的 索引 节点 , 
此 ， 揪 入 操作 将 产生 冲突 。 其 中 一 个 线程 会 执行 成 功 ， 另 外 一 个 线程 失败 后 将 重 
ix. 
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操作 。 分 裂 操 作 将 增加 插入 线程 冲突 的 概率 ， 在 图 9-1 中 ， 如 果 Data1 和 Data2 的 父 


节操 都 需要 分 裂 ， 那么 ， 两 个 插入 线程 都 需要 修改 Datal 和 Data2 的 祖父 节点 ， 从 
而 产生 站 突 。 


另外 ， 为 了 提高 读 写 并 发 能 力 ，B 树 实现 时 采用 了 写 时 复制 ( Copy-on-write ) ix 
术 ， 修 改 每 个 索引 节点 时 首先 将 该 节操 拷贝 出 来 ， 接 着 在 拷贝 出 来 的 节点 上 执行 修 
改 操作 ， 最 后 骨 原 子 地 修改 其 父 杀 书 点 的 指针 使 其 指向 拷贝 出 来 的 节点 。 这 种 实现 
方式 的 好 处 在 于 修改 操作 不 影响 读 取 ， 读 取 操 作 永 远 不 会 被 阻塞 。 


细心 的 读者 可 能 会 友 现 ， 这 里 的 B 树 不 支持 更 新 ( Update ) 以 及 删除 操作 ， 这 是 由 
OceanBase MVCC 和 存储 引擎 的 实现 机 制 决定 的 。 对 于 更 新 操作 ，MVCC 存 储 引 党 会 在 
行 的 末尾 追加 一 个 单元 记录 更 新 的 内 容 ， 而 不 会 影响 索引 结构 ; 对 于 删除 操作 ， 
MVCC 和 存储 引擎 内 部 实现 为 标记 删除 ， 即 在 行 的 末尾 追加 一 个 单元 记录 行 的 删除 时 
间 ， 而 个 会 物理 删除 某 行 数据 。 


9.1.3 fi 


为 了 实现 并 发 控制 ，0ceanBase 需 要 对 一 行 记 录 加 共享 锁 或 者 互 斥 锁 。 为 此 ， 专 门 
实现 了 QLock， 代码 如 下 : 


struct QLock 


( 


enum State 


( 


EXCLUSIVE BIT-1UL« «31, 


UID MASK- ~ EXCLUSIVE BIT 
}; 
volatile uint32 t _n_ref_;// 表 示 持 有 共享 锁 的 引用 计数 
volatile uint32 t uid_;// 表 示 持 有 互 斥 锁 的 用 户 编号 
// 加 共享 锁 ，uid 为 用 户 编号 ，end_time 为 超时 时 间 
int shared lock(const uint32 t uid,const int64 t end time--1); 
// 解 除 共 Le Bí 
int shared unlock(); 
// 加 互 斥 锁 ，uid 为 用 户 编号 ，end_time 为 超时 时 间 
int exclusive lock(const uint32 t uid,const int64 t end time--1); 
// 解 除 互 斥 锁 
int exclusive unlock(const uint32 t uid); 
// 共 享 锁 升 级 为 互 斤 锁 ，uid 为 用 户 编号 ，end_time 为 超时 时 间 


int share2exclusive lock(const uint32 t uid,const int64 t 


end time--1); 


int exclusive2shared lock(const uint32 t uid); 
}; 


在 QLock 的 实现 中 ， 每 把 锁 占用 8 个 字 节 ， 其 中 4 个 字 节 为 n_ref_， 表 示 持 有 共享 锁 
的 引用 计数 ， 另 外 4 个 字 节 为 uid_， 表 示 持 有 互 斥 锁 的 用 尸 编号 ( 例如 线程 编号 ) 。 
uid_ 的 最 高 位 ( EXCLUSIVE_BIT ) 表示 是 否 为 互 斥 锁 ， 其 余 31 位 表示 用 户 编号 。 


share_lock 用 于 加 共享 锁 ， 实 现时 只 需要 将 n_ref_ 原 子 加 1 ; exclusive_lock 用 
于 加 互 斥 锁 ， 实 现时 需要 将 EXCLUSIVE_BIT 置 1 并 等 待 持 有 共享 锁 的 上 所 有 用 户 解锁 完 
成 。 另 外 ， 为 了 避免 新 用 户 不 断 产 生 并 持 有 共享 锁 导 致 无 法 获取 互 斥 锁 的 情况 ， 


exclusive lock 实 现 步 骤 如 下 : 

1 ) 将 EXCLUSIVE_BIT 置 为 1 ; 

2) 等 待 持 有 共享 锁 的 所 有 用 户 解锁 完成 ; 

3 ) 如 果 第 2 ) 步 无 法 在 超时 时 间 内 完成 ， 加 锁 失 败 ， 将 EXCLUSIVE_BIT 重 新 置 为 6。 


第 1 ) 步 执 行 完成 后 ， 新 产生 的 用 户 无 法 获取 共享 锁 。 这 样 ， 只 需要 等 待 已 经 持 有 共 
享 锁 的 用 户 解锁 即 可 ， 不 会 出 现 获取 互 斥 锁 时 “ 钱 死 ”的 现象 。 


share2exclusive_1lock 将 共享 锁 升 级 为 互 斥 锁 ， 实 现时 首先 升级 为 互 斥 锁 ， 如 果 
获取 成 功 ， 接 着 再 解除 共享 锁 ， 即 引用 计数 减 1。 


9.1.4 任务 队列 


在 生产 者 /消费 者 模型 中 ， 往 往 有 一 个 任务 队列 ， 生 产 者 将 任务 加 入 到 任务 队列 ， 消 
费 者 从 任务 队列 中 取出 任务 进行 处 理 。 例 如 ， 在 网 络 框 架 中 ， 网 络 线程 接收 任务 并 


加 入 到 任务 队列 ， 工 作 线 程 不 断 地 从 任务 队列 取出 任务 进行 处 理 。 


最 为 常见 的 场景 是 系统 有 一 个 全 局 任务 队列 ， 所 有 网 络 线程 和 工作 线程 操作 全 局 任 
务 队 列 都 需要 首先 获取 独占 锁 ， 这 种 方式 的 锁 冲 突 严重 ， 将 导致 大 量 操作 系统 上 下 
文 切换 ( context switch). 。 为 了 解决 这 个 问题 ， 可 以 给 每 个 工作 线程 分 配 一 个 任 
务 队 列 ， 网 络 线程 按照 一 定 的 策略 选择 一 个 任务 队列 并 加 入 任务 ， 例 如 随机 选择 或 
者 选择 已 有 任务 个 数 最 少 的 任务 队列 。 


将 任务 加 入 到 任务 队列 ( 随机 选择 ) : 

1 ) 将 total_task_num 原 子 加 1 ( total_task_num 为 全 局 任务 计数 值 ; 
2 ) 通过 total_task_num% 工 作 线 程 数 ， 计 算出 任务 所 属 的 工作 线程 ; 

3 ) 将 任务 加 入 到 该 工作 线程 对 应 的 任务 队列 中 ; 

4 ) 唤醒 工作 线程 。 


然而 ， 如 果 某 个 任务 的 处 理 时 间 很 长 ， 束 有 可 能 出 现任 务 不 均衡 的 情况 ， 即 某 个 线 
程 的 任务 队列 中 还 有 很 多 任务 未 被 处 理 ， 其 他 线程 却 处 于 空闲 状态。0ceanBase 采 
取 了 一 种 很 简单 的 策略 应 对 这 种 情况 : 每 个 工作 线程 首先 尝试 从 对 应 的 任务 队列 中 
获取 任务 ， 如 果 获 取 失 败 ( 对 应 的 任务 队列 为 空 ) ， 那 么 ， 遍 历 所 有 工作 续 程 的 任 
务 队列 ， 直 到 获取 任务 成 功 或 者 遍历 完成 所 有 的 任务 队列 为 止 。 


除 此 之 外 ，0ceanBase 还 实现 了 LightyQueue 用 于 解决 全 局 任务 队列 锁 ) 中 突 问题 。 
LightyQueue 的 设计 思想 如 下 : 





假设 系统 中 有 3 个 工作 线程 t1, t2 和 t3， 全 局 任务 队列 中 共有 18 个 槽 位 。 首 先 ， 

t1,t2 和 t3 分 别 等 待 1 号 ，2 号 以 及 3 号 模 位 。 网 络 线程 将 任务 加 入 1 号 槽 位 时 唤醒 
t1， 加 入 2 号 模 位 时 唤醒 t2， 加 入 3 号 槽 位 时 唤醒 t3。 接 着 ，t2 很 快 将 任务 处 理 完成 
后 等 待 4 号 模 位 ，t3 等 待 5 号 槽 位 ，t1 等 待 6 号 槽 位 。 网 络 线程 将 任务 加 入 到 4，5，6 
号 模 位 时 将 分 别 唤醒 t2，t3 和 t1。 通 过 这 样 的 方式 ， 每 个 工作 线程 在 不 同 的 槽 位 上 
等 待 ， 避 免 了 全 局 锁 冲 突 。 


将 任务 加 入 到 工作 队列 ( push ) 的 操作 如 下 : 

1) 占据 下 一 个 push 模 位 ; 

2 ) 将 任务 加 入 到 该 push 模 位 ; 

3 ) 唤醒 该 push 模 位 上 正在 等 待 的 工作 线程 。 

工作 线程 从 任务 队列 中 获取 任务 ( pop ) 的 操作 如 下 : 
1) 占据 下 一 个 pop 槽 位 ; 

2 ) 如 果 该 pop 槽 位 上 有 任务 ， 则 直接 返回 ; 

3) 否则 ,工作 线程 在 该 pop 模 位 上 等 待 直到 被 push 操 作 唤 醒 或 者 超时 。 
9.1.5 网 络 框架 

OceanBase 的 网 络 框 架 代 码 如 下 : 

class ObSingleServer 


{ 


public: 

// 设 置 工作 线程 个 数 

int set thread count(const int thread count); 

// 设 置 网 络 I0 线 程 个 数 

int set io thread count(const int io thread count); 

// 设 置 监听 端口 

int set listen port(const int listen port); 

public: 

// 处 理 接收 到 的 网 络 包 ， 默 认 的 处 理 逻 辑 是 将 网 络 包 加 入 到 全 局 任务 队列 中 
virtual int handlePacket(ObPacket*packet); 

// 工 作 线 程 每 次 从 全 局 任务 队列 中 取出 一 个 网 络 包 并 调用 该 函数 进行 处 理 
virtual do request(ObPacket*packet); 

}; 


OceanBase 服 务 端 接收 客户 端 发 送 的 网 络 包 ( ObPacket ) ， 并 交 给 handlePacket 
处 理 函 数 进 行 处 理 。 默 认 情 况 下 ，handlePacket 会 将 网 络 包 加 入 到 全 局 任务 队列 
中 。 接 着 ， 工 作 绪 程 会 从 全 局 任务 队列 中 不 断 获 取 网 络 包 ， 并 调用 do_request 进 行 
处 理 ， 处 理 完 成 后 应 答 客 户 端 。 可 以 分 别 通过 set_thread_count 以 及 


set io thread_count 了 数 来 设置 工作 线程 以 及 网 络 线程 的 个 数 。 
客户 端 使 用 obClientManager 发 送 网络 包 : 


class ObClientManager 


{ 
public: 
// 异 步 友 送 请 求 包 


//@param[in]server 服 务 器 端 地 址 
//@param[in]pcode 请 求 包 的 类 型 ( packet code) 
//@param[in]version 请 求 包 的 版 本 
//@param[in]in_buffer 请 求 包 实际 内 容 缓冲 区 


int post request(const ObServer&server,const int32 t pcode,const 


int32 t version,const ObDataBuffer&in buffer)const; 
// 同 步 发 送 请 求 包 并 等 竺 应答 
//@param[in]server 服 务 器 端 地 址 
//@param[in]pcode 请 求 包 的 类 型 ( packet code) 


//@param[in]version 请 求 包 的 版 本 


//@param[in]timeout 请 求 时 间 
//@param[in]in_buffer 请 求 包 实际 内 容 缓冲 区 
//@param[out]out_buffer 应 答 包 的 实际 内 容 缓冲 区 


int send request(const ObServer&server,const int32 t pcode,const 
int32 t version,const int64 t timeout,ObDataBuffer& 


in buffer,ObDataBuffer &out buffer)const; 
}; 


客户 端 友 包 分 为 两 种 情况 : 异步 请 求 (post request ) 以 及 同步 请 求 

(send request), 。 异 步 请 求 时 ， 客 户 端 将 请 求 包 加 入 到 网 络 发 送 队 列 后 立即 返 
E, 不 等 待 应 答 。 同 步 请 求 时 ， 客 户 端 将 请 求 包 加 入 到 网 络 发 送 队 列 后 开始 阻塞 等 
待 ， 直 到 网 络 线程 接收 到 服务 端的 应 答 包 后 才 唤醒 客户 端 ， 从 而 执行 后 续 处 理 逻 


辑 。 
9.1.6 压缩 与 解压 缩 


class ObCompressor 


public: 
// 数 据 压 缩 与 解压 缩 接口 


//@param[in]src_buff 输 入 数据 缓冲 区 


//@param[in]src_data_size 输 入 数据 大 小 
//@param[in/out]dst_buffer 输 出 数据 组 中 区 
//@param[in]dst_buffer_size 输 出 数据 缓冲 区 大 小 
//@param[out]dst_data_size 输 出 数据 大 小 


virtual compress(const char*src buffer,const int64 t 
src data size,char*dst buffer,const int64 t dst buffer size,into64 t 


&dst data size)-0; 


virtual decompress(const char*src buffer,const int64 t 
src data size,char*dst buffer,const int64 t dst buffer size,into64 t 


&dst data size)-0; 

// 获 取 压 缩 库 名 称 

const char*get compress name()const; 

// 根 据 传 入 的 大 小 计算 压缩 后 最 大 可 能 的 溢出 大 小 

int64 t get max overflow size(const int64 t src data size)const; 
}; 


0bCompressor 定 义 了 压缩 与 解压 缩 的 通用 接口 ， 具 体 的 压缩 库 实现 了 这 些 接口 。 压 
缩 库 以 动态 库 ( .so ) 的 形式 存在 ， 每 个 工作 线程 第 一 次 调用 compress 或 者 
decompress 方 法 时 将 加 载 相 应 的 动态 库 ， 这 样 便 实现 了 压缩 库 的 插件 化 。 目 前 ， 支 


持 的 压缩 库 包 括 LZ0[1] 以 及 Snappy[2]。 

[1]LzO : Dhttp://www.oberhumer.com/opensource/lzo/ 

[2]Snappy : Google 开 源 的 压缩 库 ， 兄 http://code.google.com/p/snappy/ 
9.2 RootServer 实 现 机 制 


RootServer 是 0ceanBase 集 群 对 外 的 窗口 ， 客 户 端 通过 RootServer 获 取 集 群 中 其 
他 模块 的 信息 。Rootserver 实 现 的 功能 包括 : 


e 管 理 集群 中 的 所 有 Chunkserver， 处 理 Chunkserver 上 下 线 ; 

e 管 理 集群 中 的 UpdateSserver， 实 现 UpdateSserver 选 主 ; 

e 管 理 集群 中 子 表 数 据 分 布 ， 友 起 子 表 复 制 、 迁 移 以 及 合并 等 操作 ; 

e 与 Chunkserver 保 持 心 跳 ， 接 受 Chunkserver 汇 报 ， 处 理子 表 分 裂 ; 

e 接 受 UpdateServer 汇 报 的 大 版 本 冻结 消息 ， 通知 ChunkServer 执 行 定期 合并 ; 
e 实 现 主 备 Rootserver， 数据 强 同步 ， 支 持 主 Rootserver 宕 机 自动 切换 。 
9.2.1 数据 结构 


RootServer 的 中 心 数据 结构 为 一 张 仓 储 了 子 表 数 据 分 布 的 有 序 表格 ， 称 为 
RootTable。 每 个 子 表 存 储 的 信息 包括 : 子 表 主 键 学 围 、 子 表 各 个 副本 所 在 
ChunkServer 的 编号 、 子 表 各 个 副本 的 数据 行 数 、 占 用 的 磁盘 空间 、CRC 校 验 值 以 及 
基线 数据 版 本 。 


RootTable 是 一 个 读 多 写 少 的 数据 结构 ， 除 了 ChunkServer 汇 报 、RootServer 发 起 
子 表 复 制 、 迁 移 以 及 合并 等 操作 需要 修改 RootTable 外 ， 其 他 操作 都 只 需要 从 
RootTab1le 中 读 取 基 个 子 表 所 在 的 Chunkserver。 因 此 ，0ceanBase 设 计时 考虑 以 
写 时 复制 的 方式 实现 该 结构 ， 另 外 ， 考 虑 到 RootTab1le 修 改 特别 少 ， 实 现时 没有 采 
用 支持 写 时 复制 的 B+ 树 或 者 跳跃 表 (Skip List) ， 而 是 采用 相对 更 加 简单 的 有 序 
数组 ， 以 减少 工作 量 。 


往 RootTable 增 加 子 表 信 息 的 操作 步骤 如 下 : 

1) 拷贝 当前 服务 的 RootTable 为 新 的 RootTable ; 

2 ) 将 子 表 信 息 追 加 到 新 的 RootTable， 并 对 新 的 RootTable 重 新 排序 ; 
3 ) 原子 地 修改 指针 使 得 当前 服务 的 RootTable 指 向 新 的 RootTable。 


ChunkServer 一 次 汇报 一 批 子 表 ( 黑 认 一 批 包含 1624 个 ) ， 如 果 每 个 子 表 修改 都 需 
要 拷贝 整个 RootTable 并 重新 排序 ， 性 能 上 显然 无 法 接受 。RootServer 实 现时 做 了 
一 些 优化 : 拷贝 当前 服务 的 RootTab1le 为 新 的 RootTab1le 后 ， 将 Chunkserver 汇 报 

的 一 批 子 表 一 次 性 追加 到 新 的 RootTable 中 并 重新 排序 ， 最 后 再 原子 地 切换 当前 服 

务 的 RootTable 为 新 的 RootTable。 末 用 批 处 理 优 化 后 ，RootTable 的 性 能 基本 满 

足 需求 ，OceanBase 单 个 集群 支持 的 子 表 个 数 最 大 达到 几 百 万 个 。 当 然 ， 这 种 实现 

方式 并 不 优雅 ， 我 们 后 续 将 改造 RootTable 的 实现 方式 。 


ChunkServer 汇 报 的 子 表 信 息 可 能 和 RootTable 中 记录 的 不 同 ， 比 如 发 生 了 子 表 分 
烈 。 此 时 ， RootServer 需 要 根据 汇报 的 tablet 信 息 更 新 RootTable。 


如 图 9-2 所 示 ， 假 设 原 来 的 RootTable 包 含 四 个 子 表 : r1 (min, 10], r2(10, 


100]. r3 (100, 1000]. r4 (1000 ,max]、Chunkserver 汇 报 的 子 表 列表 为 : 
t1(10,50]. t2(50, 100]. t3(100, 1000] ,表示 r2 发 生 了 tablet 分 裂 ， 那 
么 ，RootServer 会 将 RootTable 修 改 为 : r1 (min, 10]. r2(10, 50], 


r3(50, 100], r4 (100 , 1000], r5 (1000 , max]. 


(min, 10] 


(10, 50] 


(min, 10] 


(100, 1000] 
(10000, max] 





(1000, max] 


IH RootTable 新 RootTable 





9-2 RootTab1le 修 改 


RootServer 中 还 有 一 个 管理 折 有 Chunkserver 信 息 的 数组 ， 称 为 ChunkServer- 
Manager。 数 组 中 的 每 个 元 素 代表 一 台 ChunkServer ， 和 存储 的 信息 包括 : 机 器 状态 

(已 下 线 、 正 在 服务 、 正 在 汇报 、 汇 报 完 成 ， 等 等 ) 、 局 动 后 注册 时 | 间 、 上 次 心跳 
时 间 、 磁 盘 相 关 人 信息、 负载 均衡 相关 信息 。0ceanBase 刚 上 线 时 依据 每 从 
Chunkserver 磁 盘 占 用 信息 执行 负载 均衡 ， 目 的 是 为 了 尽 可 能 确保 每 台 
ChunkServer 占 用 差不多 的 磁盘 空间 。 上 线 运 行 一 段 时 间 后 发 现 这 种 方式 效果 并 不 
好 ， 目 前 的 方式 为 按照 每 个 表格 的 子 表 个 数 执行 负载 均衡 ， 目 的 是 尽 可 能 保证 对 于 
每 个 表格 、 每 台 chunkserver 上 的 子 表 个 数 大 致 相同 。 


9.2.2 子 表 复 制 与 负载 均衡 


RootServer 中 有 两 种 操作 都 可 能 触发 子 表 迁 移 : 子 表 复 制 ( rereplication ) 以 及 
负载 均衡 ( rebalance ) 。 当 某 些 Chunkserver 下 线 超 过 一 段 时 间 后 ， 为 了 防止 数 


据 丢 失 ， 需 要 拷贝 副本 数 小 于 阀 值 的 子 表 ， 另 外 ， 系 统 也 需要 定期 执行 负载 均衡 ， 
将 子 表 从 负载 较 高 的 机 器 迁移 到 负载 较 低 的 机 器 。 


每 台 ChunkServer 记 录 了 子 表 迁 移 相 关 人 信息， 包括 : ChunkSserver 上 子 表 的 个 数 以 

及 所 有 子 表 的 大 小 总 和 “， 正 在 迁 入 的 子 表 个 数 、 正 在 迁 出 的 子 表 个 数 以 及 子 表 迁 移 

任务 列表 。RootServer 包 含 一 个 专门 的 线程 定期 执行 子 表 复制 与 负载 均 稀 任务 ， 步 
又 如 下 : 


1 ) 子 表 复制 : 扫描 RootTable 中 的 子 表 ， 如 果 某 个 子 表 的 副本 数 小 于 阀 值 ， 选 取 某 
台 包 合子 表 副 本 的 ChunkServer 为 迁移 源 ， 另 外 一 人 台 符 合 要 求 的 Chunkserver 为 迁 

移 目的 地 ， 生 成 子 表 迁移 任务 。 迁 移 目 的 地 需要 符合 一 些 条 件 ， 比 如 ， 不 包含 待 迁 

移 子 表 ， 服 务 的 子 表 个 数 小 于 平均 个 数 减 去 可 容忍 个 数 ( 默认 值 为 106 ) ， 正 在 进行 

的 迁移 任务 不 超过 阀 值 等 。 


2) 负载 均衡 : 扫描 RootTable 中 的 子 表 ， 如 果 某 从 ChunkServer 包 含 的 某 个 表格 的 
子 表 个 数 超 过 平均 个 数 以 及 可 容忍 个 数 ( 默认 值 为 16 ) 之 和 ， 以 这 台 ChunkServer 
为 迁移 源 ， 并 选择 一 台 符 合 要 求 的 chunkserver， 生 成 子 表 迁移 任务 。 


子 表 复制 以 及 负载 均衡 生成 的 子 表 迁 移 任务 并 不 会 立即 执行 ， 而 是 会 加 入 到 迁移 源 
的 迁移 任务 列表 中 ，Rootserver 还 有 一 个 后 台 线 程 会 扫 摘 所 有 的 ChunkServer， 接 
着 执行 每 人 台 ChunkServer 的 迁移 任务 列表 中 保存 的 迁移 任务 。 子 表 迁 移 时 限制 了 每 
台 ChunkServer 同 时 进行 的 最 大 迁 入 和 迁 出 任务 数 ， 从 而 防止 一 台新 的 
Chunkserver 了 刚 上 线 时 ， 迁 入 大 量子 表 而 负载 过 高 。 


例 9-1 某 0ceanBase 和 集群 包含 4 台 ChunkServer : ChunkServer1 ( 包含 子 表 A1、 


A2. A3) , ChunkServer2 ( 包含 子 表 A3、A4 ) , ChunkServer3 ( 包含 子 表 A2 ) , 


ChunkServer4 ( 包含 子 表 A4 ) , 


假设 子 表 副 本 数 配置 为 2， 最 多 能 够 容忍 的 不 均衡 子 表 的 个 数 为 9%。RootServer 后 台 
线程 首 移 执 行 子 表 复 制 ， 友 现 子 表 A1 只 有 一 个 副本 ， 于 是 ， 将 Chunkserver1 作 为 迁 
移 源 ， 选 择 某 台 Chunkserver ( 假设 为 Chunkserver3 ) 作为 迁移 目的 ， 生 成 迁移 任 
务 < ChunkServer1 ，ChunkSserver3，A1> 。 接 着 ， 执 行 负载 均衡 ， 发 现 
ChunkServer1 包 含 3 个 子 表 ， 超 过 平均 值 ( 平均 值 为 2 ) ， 而 Chunkserver4 包 含 的 
子 表 个 数 小 于 平均 值 ， 于是， 将 Chunkserver1 作 为 迁移 源 ，Chunkserver4 作 为 迁 
移 目 的 ， 选 择 某 个 子 表 ( 假设 为 A2 ) ， 生 成 迁移 任务 < ChunkServer1 , 
ChunkServer4 , A2 > 。 如 果 迁 移 成 功 ，A2 将 包含 3 个 副本 ， 可 以 通知 
ChunkServer1 删 除 上 面 的 A2 副 本 。 最 后 ，tab1let 分 布 情 况 为 : ChunkServer1 (B 
tablet A1, A3) , ChunkServer2 ( 包含 tablet A3, A4) , 

ChunkServer3 ( 包含 tablet A1, A2) , ChunkServer4 ( 包含 tablet A2, 


A4) ， 每 个 tablet 包 含 2 个 副本 ， 且 平均 分 布 在 4 台 Chunkserver 上 。 
9.2.3 子 表 分 型 与 合并 


子 表 分 裂 由 ChunkServer 在 定期 合并 过 程 中 执行 ， 由 于 每 个 子 表 包 含 多 个 副本 ， 且 
分 布 在 多 台 ChunkSserver 上 ， 如 何 确保 多 个 副本 之 间 的 分 裂 点 保持 一 致 成 为 问题 的 
天 键 。0ceanBase 采 用 了 一 种 比较 直接 的 做 法 : 每 台 Chunkserver 使 用 相同 的 分 裂 
规则 。 由 于 每 个 子 表 的 不 同 副本 之 间 的 基线 数据 完全 一 致 ， 且 定期 合并 过 程 中 冻结 
的 增 量 数据 也 完全 相同 ， 只 要 分 裂 规则 一 致 ， 分 裂 后 的 子 表 主 键 范 围 也 保证 相同 。 


OceanBase 曾 经 有 一 个 线 上 版 本 的 分 裂 规 则 如 下 : 只 要 定期 合并 过 程 中 产生 的 数据 
量 超 过 256MB， 就 生成 一 个 新 的 子 表 。 假 设 定期 合并 产生 的 数据 量 为 257MB， 那 么 最 
后 将 分 裂 为 两 个 子 表 ， 其 中 ， 前 一 个 子 表 ( 记 为 r1 ) 的 数据 量 为 256MB， 后 一 个 子 


表 ( 记 为 r2 ) 的 数据 量 为 IMB。 接 着 ，r1 接 受 新 的 修改 ， 数 据 量 很 快 又 超过 256MB , 
于 是 ， 又 分 裂 为 两 个 子 表 。 系 统 运行 一 段 时 间 后 ， 充 斥 着 大 量 数据 量 很 少 的 子 表 ,。 


为 了 解决 分 裂 产 生 小 子 表 的 问题 ， 需 要 确保 分 裂 以 后 的 每 个 子 表 数 据 量 大 致 相同 。 
OceanBase 对 每 个 子 表 记 录 了 两 个 元 数据 : 数据 行 数 row_count 以 及 子 表 大 小 
(occupy size). 。 根 据 这 两 个 值 ， 可 以 计算 出 每 行 数据 的 平均 大 小 ,， 即 : 


occupy size/row count, 


子 表 合并 相对 更 加 麻烦 ， 步 又 如 下 : 

1) 合并 准备 : RootServer 选 择 若 干 个 主键 范围 连续 的 小 子 表 ; 

2 ) TRER : 将 待 合并 的 若干 个 小 子 表 迁移 到 相同 的 ChunkServer 机 器 ，; 

3 ) 子 表 合 并 : 往 ChunkServer 机 器 友 送 子 表 合并 命令 ,生成 合并 后 的 子 表 范 围 。 


例 9-2 某 OceanBase 集 群 中 有 3 人 台 ChunkSserver : ChunkServer1 ( 包含 子 表 A1、 
A3) , ChunkServer2 ( 包含 子 表 A2、A3 ) , ChunkServer3 ( 包含 子 表 A1、A2 ) ， 
其 中 ，A1l 和 A2 分 别 为 1@6MB ,A3 为 256MB。RootServer 扫 描 RootTable 后 发 现 A1 和 A2 
满足 子 表 合 并 条 件 ， 首 先 友 起 子 表 迁 移 ， 假 设 将 A1 迁 移 到 ChunkServer2， 使 得 A1 和 
A2 在 相同 的 ChunkSserver 上 ， 接 着 分 别 向 ChunkSserver2 和 ChunkServer3 发 起 子 表 
合并 命令 。 子 表 合并 完成 以 后 ， 子 表 分 布 情况 为 : ChunkServer1 ( BATEA) , 
ChunkServer2 ( 包含 子 表 A4 ( Al ,A2 ) , A3) , ChunkServer3 ( 包含 子 表 

A4 ( A1,A2) ) ， 其 中 ，A4 是 子 表 A1 和 A2 合 并 后 的 结果 。 


每 个 子 表 包含 多 个 副本 ， 只 要 某 一 个 副本 合并 成 功 ，0ceanBase 就 认为 子 表 合并 成 


功 ， 其 他 合并 失败 的 子 表 将 通过 垃圾 回收 机 制 删 除 掉 。 
9.2.4 UpdateServer 选 主 


为 了 确保 一 致 性 ，Rootserver 需 要 确保 每 个 集群 中 只 有 一 台 UpdateSserver 提 供 写 


服务 ， 这 个 Updateserver 称 为 主 UpdateServer。 


RootServer 通 过 租约 ( Lease ) 机 制 实现 UpdateServer 选 主 。 主 UpdateServer 必 
须 持 有 RootServer 的 租约 才能 提供 写 服 务 ， 租 约 的 有 效 期 一 般 为 3 ~ 5 秒 。 正 常情 ; 
下 ，RootServer 会 定期 给 主 UpdateServer 友 送 命 令 ， 延长 租约 的 有 效 期 。 如 果 主 
UpdateServer 出 现 异常 ，RootServer 等 待 主 UpdateServer 的 租约 过 期 后 才能 选择 
其 他 的 updateserver 为 主 UpdateServer 继 续 提供 写 服务 。 


RootSserver 可 能 需要 频繁 升 级 ， 升 级 过 程 中 Updateserver 的 租约 将 很 快 过 期 ， 系 
统 也 会 因此 停 服 务 。 为 了 解决 这 个 问题 ，RootSserver 设 计 了 优雅 退出 的 机 制 ， 即 
RootServer 退 出 之 前 给 Updateserver 上 友 送 一 个 有 效 期 超 长 的 租约 ( 比如 半 小 
BJ) ， 承 诺 这 段 时 间 不 进行 主 updateSserver 选 举 ， 用 于 RootSserver 升 级 。 代 码 如 
"Es 


enum ObUpsStatus 


UPS STAT OFFLINE-0 , //UpdateServert3 rZ 
UPS_STAT_NOTSYNC=1，//UpdateServer 为 备 机 上 且 与 主 UpdateServer 不 同步 


UPS_STAT_SYNC=2，//UpdateServer 为 备 机 上 且 与 主 UpdateServer 同 步 


UPS STAT MASTER»3 , //UpdateServer Æ} 
}; 
//RootServer 中 记录 UpdateServer 信 息 的 结构 


class ObUps 


ObServer addr ;//UpdateServer 地 址 

int32 t inner port ;//UpdateServerPjzZbug; L1 
int64 t log seq num ;//UpdateServer 的 日 志 号 
int64 t lease ;//UpdateServerBSfBZJ 
ObUpsStatus stat ;//UpdateServerdjAus 

}; 


class ObUpsManager 


public: 
//UpdateServer 向 RootServer 注 册 


int register ups(const ObServer&addr,int32 t inner port,int64 t 


log seq num,int64 t lease,const char*server version); 


// 检 查 所 有 updateserver 的 租约 ，Rootserver 内 部 有 专门 的 线程 会 定时 调用 该 加 
m 


int check_lease(); 
/VRootserver 给 Updateserver 发 送 租约 

int grant lease(); 
//RootServer£&UpdateServerZe YER K 
int grant eternal lease(); 

private: 

ObUps ups array [MAX UPS COUNT]; 
int32 t ups master idx ; 

}; 


RootServer 模 块 中 有 一 个 ObUpsManager 类 ， 它 包含 一 个 数组 ups_array_， 其 中 的 
每 个 元 素 表 示 一 个 UpdateServer,ups_master idx 表示 主 UpdateServer 在 数组 
里 的 下 标 。0bUps 结 构 记 录 了 UpdateServer 的 信息 ， 包 括 UpdateServer 的 地 址 
(addr. ) 以 及 内 部 端口 ( inner port ) ，UpdateServer 的 状态 ( stat_， 分 为 
UPS_STAT_OFFLINE/UPS_STAT_NOTSYNC/UPS_STAT_SYNC/UPS_STAT_MASTER 这 四 
Wh) ，UpdateServer 的 日 志 号 ( log seq num ) 以 及 租约 (lease )., 


UpdateServer 首 先 通 过 register_ups| 向 RootServer 注 册 ， 将 它 的 信息 告知 
RootServer。 一 段 时 间 之 后 ，Rootserver 会 从 所 有 注册 的 updateserver 中 选取 一 
台 日 志 号 最 大 的 作为 主 UpdateServer。0bUpsManager 类 中 还 有 一 个 check_lease 
函数 ， 由 Rootserver 内 部 线程 定时 调用 ， 如 果皮 现 Updateserver 的 租约 快要 过 
期 ， 则 会 通过 grant_lease 给 Updateserver 延 长 租约 。 如 果 发 现 主 UpdateSserver 
的 租约 已 经 失效 ， 则 会 从 所 有 Update-Server 中 选择 一 个 日 志 号 最 大 的 
UpdateServer 作 为 新 的 主 UpdateServer。 另 外 ，Root-Server 还 可 以 通过 
grant_eternal_lease 给 UpdateServer 友 送 超 长 租约 。 


9.2.5 RootServer 主 备 


集群 一 般 部 署 一 主 一 备 两 台 RootServer， 主 备 之 间 数 据 强 同步 ， 即 所 有 的 操作 
都 需要 首先 同步 到 备 机 ， 接 着 修改 主机 ， 最 后 才能 返回 操作 成 功 。 


RootServer 主 备 之 间 需 要 同步 的 数据 包括 : RootTable 中 记录 的 子 表 分 布 信息 
ChunkServerManager 中 记录 的 ChunkServer 机 器 变化 信息 以 及 UpdateServer 机 器 
言 息 。 子 表 复 制 、 负 和 载 均衡 、 合 并 、 分 裂 以 及 ChunkServer/UpdateServer 上 下 线 
等 操作 都 会 引起 RootServer 内 部 数据 变化 ,这些 变 化 都 将 以 操作 日 志 的 形式 同步 到 
备 RootSserver。 备 RootServer 实 时 回放 这 些 操 作 日 志 ， 从 而 与 主 RootServer 保 持 
同步 。 


OceanBase 中 的 其 他 模块 ， 比 如 ChunkServer/UpdateServer， 以 及 客户 端 通过 
VIP ( Virtual IP) 访问 RootServer， 正常 情况 下 ，VIP 忆 是 措 向 主 RootServer。 
当主 RootServer 出 现 故障 时 ， 部 署 在 主 备 RootSserver 上 的 Linux 

HA ( heartbeat , 心跳 ) ， 软 件 能 够 检测 到 ， 并 将 VIP 漂移 到 备 RootServer。 
Linux HA 软件 的 核心 包含 两 个 部 分 : 心跳 检测 部 分 和 人 资源 接管 部 分 ， 心 跳 检 测 部 分 


通过 网 络 链接 或 者 串口 线 进行 ， 主 备 RootServer 上 的 心跳 软件 相互 发 送 报 文 来 告诉 
对 方 自己 当前 的 状态 。 如 果 在 指定 的 时 | 间 内 未 收 到 对 方 友 送 的 报 文 ， 那 么 束 认 为 对 
方 失败 ， 这 时 需 启动 资源 接管 模块 来 接管 运行 在 对 方 主机 上 的 资源 ,这 里 的 资源 就 
是 VIP。 备 RootServer 后 台 线 程 能 够 检测 到 VIP 漂 移 到 自身 ， 于 是 自动 切换 为 主机 提 


供 服 务 。 
9.3 UpdateSserver 实 现 机 制 


UpdateServer 用 于 存储 增 量 数据 ， 它 是 一 个 单机 存储 系统 ， 由 如 下 几 个 部 分 组 成 : 
内存 存储 引 掌 ， 在 内 存 中 存储 修改 增 量 ， 支持 冻结 以 及 转 储 操作 ; 


e 任 务 处 理 模型 ， 包 括 网 络 框架 、 任 务 队 列 、 工 作 线程 等 ， 针 对 小 数据 包 做 了 专门 的 
优化 ; 


e 主 备 同步 模块 ， 将 更 新 事务 以 操作 日 志 的 形式 同步 到 备 UpdateServer。 


UpdateSserver 是 0ceanBase 性 能 瓶颈 点 ， 核 心 是 高 效 ， 实 现时 对 锁 ( 例如 ， 无 锁 数 
据 结构 ) 、 索 引 结构 、 内 存 占 用 、 任 务 处 理 模 型 以 及 主 备 同步 都 需要 做 专门 的 优 
化 。 


9.3.1 存储 引擎 


UpdateServer 存 储 引 擎 如 图 9 -3 所 示 。 


Mem Table 











Memory 


SSD Disk 


SSTable 文 付 


9-3 UpdateSserver 存 储 引 擎 


UpdateServer 人 存储 引 掌 与 6.1 节 中 提 到 的 Bigtable 和 存储 引擎 看 起 来 很 相似 ， 不 同 点 
在 于 : 


eUpdatesServer 只 存储 了 增 量 修 改 数据 ， 基 线 数据 以 SSTable 的 形式 存储 在 
ChunkServer E , 而 Bigtable 和 存储 引 敬 同时 包含 某 个 子 表 的 基线 数据 和 增 量 数据 ; 


eUpdatesServer 内 部 所 有 表格 共用 MemTable 以 及 SSTable， 而 Bigtable 中 每 个 子 
表 的 MemTable 和 SSTable 分 开 存 放 ; 


eUpdatesServer 的 SSTable 存 储 在 SSD 磁 盘 中 ， 而 Bigtable 的 SSTable 存 储 在 GFS 
中 。 


UpdateServer 存 储 引 警 包含 几 个 部 分 : 操作 日 志 、MemTab1le 以 及 SSTable。 更 新 
操作 首先 记录 到 操作 日 志 中 ， 接 着 更 新 内 存 中 活跃 的 MemTable (Active 
MemTable) ， 活 跃 的 MemTab1le 到 达 一 定 大 小 后 将 被 冻结 ， 称 为 Frozen 


MemTable， 同 时 创建 新 的 Active MemTable, Frozen MemTable 将 以 SSTable 文 件 
的 形式 转 储 到 ssD 磁 盘 中 。 


1 .操作 日 志 


OceanBase 中 有 一 个 专门 的 提交 线程 负责 确定 多 个 写 事务 的 顺序 ( 即 事务 id ) ， 将 
这 些 写 事务 的 操作 追加 到 日 志 缓 冲 区 ， 并 将 日 志 缓 冲 区 的 内 容 写 入 日 志文 件 。 为 了 
防止 写 操作 日 志 污染 操作 系统 的 缓存 ， 写 操作 日 志文 件 采用 Direct I0 的 方式 实 
现 : 


class ObLogWriter 


public: 
/write_1log 国 数 将 操作 日 志和 存 入 日 志 缓 冲 区 


int write log(const LogCommand cmd ,const char*log data,const 


int64 t data len); 
// 将 日 志 缓 冲 区 中 的 日 志 先 同步 到 备 机 再 写 入 主机 磁盘 


int flush log(LogBuffer&tlog buffer,const bool 


sync to slave-true,const bool is master-true); 
}; 


每 条 日 志 项 由 四 部 分 组 成 : 日 志 头 + 日 志 序号 + 日 志 类 型 ( LogCommand ) + 日 志 内 


容 ， 其 中 ， 日 志 头 中 记录 了 每 条 日 志 的 校 验 和 ( checksum) 。0bLogWriter 中 的 
write_1og 函 数 负责 将 操作 日 志 拷 贝 到 日 志 缓 冲 区 中 ， 如 果 日 志 缓 冲 区 已 满 ， 则 向 
调用 者 返回 缓冲 区 不 足 ( 0B_BUF_NOT_ENOUGH ) 错误 码 。 接 着 ， 调 用 者 会 通过 
flush_log 将 缓冲 区 中 已 有 的 日 志 内 容 同步 到 备 机 并 写 入 主机 磁盘 。 如 果 主 机 磁盘 
的 最 后 一 个 日 志文 件 超过 指定 大 小 ( 默认 为 64MB ) ， 还 会 调用 switch_log 消 数 切 换 
日 志文 件 。 为 了 提高 写 性 能 ，UpdateServer 实 现 了 成 组 提交 ( Group Commit ) 技 
术 ， 即 首先 多 次 调用 write_1og 函 数 将 多 个 写 操作 的 日 志 拷 贝 到 相同 的 日 志 缓 冲 

区 ， 接 着 再 调用 flush_1og 函 数 将 日 志 缓 冲 区 中 的 内 容 一 次 性 写 入 到 日 志文 件 中 。 


2.MemTable 


MemTable 底 层 是 一 个 高 性 能 内 存 B 树 。MemTable 封 装 了 B 树 ， 对 外 提供 统一 的 读 写 
接口 。 


B 树 中 的 每 个 叶子 节点 对 应 MemTable 中 的 一 行 数 据 ，key 为 行 主键 ，value 为 行 操作 
链表 的 指针 。 每 行 的 操作 按照 时 间 顺 序 构 成 一 个 行 操作 链表 。 


如 图 9-4 所 示 ，MemTable 的 内 存 结构 包含 两 部 分 : 系 引 结构 以 及 行 操 作 链 表 ， 索 引 
结构 为 9.1.2 节 中 提 到 的 B 树 ， 支 持 插 入 、 删 除 、 更 新 、 随 机 读 取 以 及 范围 查询 操 
作 。 行 操作 链表 保存 的 是 对 某 一 行 各 个 列 ( 每 个 行 和 列 确定 一 个 单元 ， 称 为 Cell ) 
的 修改 操作 。 





9-4 MemTab1le 的 内 存 结构 


例 9-3 对 主键 为 1 的 商品 有 3 个 修改 操作 ， 分 别 是 : 将 商品 购买 人 数 修改 为 19686， 删 
除 该 商品 ， 将 商品 名 称 修改 为 “ 女 鞋 ”， 那么 ， 该 商品 的 行 操作 链 中 将 保存 三 个 
Cell ,分 别 为 : < update， 购 买 人 数 ，166 >、< delete ,*> 以 及 <update，, 商 
品名 ，“ 女 鞋 ” > 。 


MemTable 中 存储 的 是 对 该 商品 的 所 有 修改 操作 ， 而 不 是 最 终结 果 。 另 外 ，MemTable 
删除 一 行 也 只 是 往 行 操作 链表 的 末尾 加 入 一 个 逻辑 删除 标记 ,， 即 < delete , *» , 
而 不 是 实际 删除 索引 结构 或 者 行 操作 链表 中 的 行内 容 。 


MemTable 实 现时 做 了 很 多 优化 ， 包 括 : 


ella 25235| : 针对 主要 操作 为 随机 读 取 的 应 用 ，MemTable 不 仪 支持 B 树 过 引 ，, 还 支持 
哈 希 索引 ，Updateserver 内 部 会 保证 两 个 索引 之 间 的 一 致 性 。 


e 内 存 优化 : 行 操作 链表 中 每 个 cell 操 作 都 需要 存储 操作 列 的 编号 ( column id), 
操作 类 型 ( 更 新 操作 还 是 删除 操作 ) 、 操 作 值 以 及 指向 下 一 个 cell 操 作 的 指针 ， 如 


果 不 做 优化 ， 内 存 膨胀 会 很 大 。 为 了 减少 内 存 占用 ，MemTable 实 现时 会 对 整数 值 进 


行 变 长 编码 ， 并 将 


多 个 cell 操 作 编 码 后 序列 到 同一 块 组 ;站 区 中 ， 共 用 一 个 指向 下 一 


批 cell 操 作 组 ;中 区 的 指针 : 


struct ObCellMeta 


const static 


const static 


const static 


const static 


const static 


const static 


const static 


const static 


j5 


int64 t 


int64 t 


int64 t 


int64 t 


int64 t 


int64 t 


int64 t 


int64 t 


TP_INT8=1;//int8 整 数 类 型 
TP_INT16=2;//int16 整 数 类 型 
TP_INT32=3;//int32 整 数 类 型 
TP_INT64=4;//int64 整 数 类 型 
TP_VARCHAR=6;// 变 长 字符 串 类 型 
TP_DOUBLE=13;// 双 精度 浮 点 类 型 
TP_ESCAPE=8x1f;// 扩 展 类 型 


ES_DEL_ROW=1;// 删 除 行 操作 


class ObCompactCellWriter 


// 写 入 更 新 操作 ， 人 存储 成 压缩 格式 
int append(uint64 t column id,const ObObj&value); 
// 写 入 删除 操作 ， 存储 成 压缩 格式 


int row delete(); 
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MemTable 通 过 0bCompactCellWriter 来 将 cell 操 作 序 列 化 到 内 存 组 ;中 区 中 ， 如 果 
为 更 新 操作 ， 调 用 append 国 数 ; 如 果 为 删除 操作 ， 调 用 row_delete 晃 数 。 更 新 操作 
的 存储 格式 为 : 数据 类 型 + 值 +7ID, TP_INT8/TP_INT16/TP_INT32/TP_INT64 分 别 | 
表示 8 位 /16 位 /32 位 /64 位 整数 类 型 ，TP_VARCHAR 表 示 变 长 字符 串 类 型 ， 
TP_DOUBLE 表 示 双 精度 浮 点 类 型 。 删 除 操作 为 扩展 操作 ， 其 人 存储 格式 为 : 
TP_ESCAPE+ES_DEL_ROW。 例 9-3 中 的 三 个 Cel1 : < update， 购 买 人 数 ，168> 、< 
delete,*> 以 及 < update , 商品 名 ，“ 女 鞋 ” > 在 内 存 缓冲 区 的 存储 格式 为 : 


© gp p js bb »^q— | 





TP INT8 购买 人 数列 ID |TP ESCAPE |ES DEL ROW |TP VARCHAR TEX 


第 1 ~ 3 字 节 表示 第 一 个 Cell ， 即 < update， 购 买 人 数 ，166 > ; 284 ~ 5 字 节 表示 第 
二 个 cell , 即 <delete，,*> ; 第 6 ~ 8 字 节 表示 第 三 个 Cell，, Bp < update， 丙 品 
名 : "ATE" > o 


MemTab1le 的 主要 对 外 接口 可 以 归结 如 下 : 


// 开 启 一 个 事务 


//@param[in]jtrans_type 事 务 类 型 ， 可 能 为 读 事 务 或 者 写 事务 
//@param[out ]td 返 回 的 事务 摘 述 符 


int start _ transaction(const TETransType 


trans type,MemTableTransDescriptor &td); 
// 提 交 或 者 回 深 一 个 事务 
//@param[in]td 事 务 描述 符 
//@param[in]rollback 是 否 回 深 ， 默认 为 false 


int end transaction(const MemTableTransDescriptor td,bool 


rollback=false); 

// 执 行 随机 读 取 操 作 ， 返 回 一 个 迭代 器 
//@param[in]td 事 务 描述 符 
//@param[in]table_id 表 格 编号 
//@param[in]row_key 待 查询 的 主键 
//@param[out]iter 返 回 的 迭代 器 


int get(const MemTableTransDescriptor td,const uint64 t 


table id,const ObRowkey&row key,MemTableIterator&iter); 


/ SGT ESEEHISEARE , 返回 一 个 和 迭代 器 


//@param[in]td 事 务 描述 符 
//@param[in]range 查 询 学 围 ， 包 括 起 始 行 、 结 束 行 ， 开 区 间或 者 闭 区 间 
//gparam[out]itenriE[B]B yif C88 


int scan(const MemTableTransDescriptor td,const ObRange& 


range,MemTableIterator&iter); 

// 开 始 执行 一 次 修改 操作 

//@param[in]td 事 务 描述 符 

int start mutation(const MemTableTransDescriptor td); 
// 提 交 或 者 回 滚 一 次 修改 操作 
//@param[in]td 事 务 描述 符 
//@param[in]rollback 是 否 回 浴 

int end mutation(const MemTableTransDescriptor td,bool rollback); 
// 执 行 修改 操作 

//@param[in]td 事 务 描述 符 


//@param[in]mutator 修 改 操作 ， 包含 一 个 或 者 多 个 对 多 个 表格 的 cell 操 作 


int set(const MemTableTransDescriptor td,ObUpsMutator &mutator); 


对 于 读 事务 ， 操 作 步 骤 如 下 : 
1 ) 调用 start_transaction 开 始 一 个 读 事务 ， 获 得 事务 掏 述 符 ; 


2 ) 执行 随机 读 取 或 者 扫描 操作 ， 一 个 迭代 器 ; 接着 可 以 从 迭代 器 不 断 迭 代数 
im 


3 ) 调用 end transaction 提 交 或 者 回 滚 一 个 事务 。 


class MemTableIterator 


public: 

/ NEREDE] F— T cell 
int next cell(); 

// 获 取 当 前 ce11 的 内 容 


//Qparam[out]cell info 当 前 cel1 的 内 容 ， 包括 表 名 (table id) ， 行 主键 


( row |. 

key)， 列 编号 (column_id) 以 及 列 值 (column_value) 
int get cell(ObCellInfo**cell info); 

// 获 取 当 前 ce11 的 内 容 


//@param[out]cel1_info 当 前 cel1 的 内 容 


//@param is_row_changed 是 否 迭 代 到 下 一 行 
int get cell(ObCellInfo**cell info,bool*is row changed); 
}; 


读 事务 返回 一 个 迭代 器 MemTableIterator， 通 过 它 可 以 不 断 地 获取 下 一 个 读 到 的 
cel1。 在 例 9-3 中 ， 读 取 编 号 为 1 的 商品 可 以 得 到 一 个 迭代 器 ， 从 这 个 友 代 器 中 可 以 
读 出 行 操作 链 中 保存 的 3 个 Cel1， 依 次 为 : «update , 购买 人 数 ，160 > , < 
delete, *» ，<update ,商品 名 , "Ab" >, 


写 事务 总 是 批量 执行 ， 步 又 如 下 : 

1 ) 调用 start_transaction 开 始 一 批 写 事务 ， 获 得 事务 摘 述 符 ; 

2 ) 调用 start_mutation 开 始 一 次 写 操作 ; 

3) 执行 写 操作 ， 将 数据 写 入 到 MemTable 中 ; 

4 ) 调用 end_mutation 提 交 或 者 回 深 一 次 写 操作 ; 如 果 还 有 写 事务 ， 转 到 步 又 2 ) ; 
5 .调用 end_transaction 提 交 写 事务 。 

3.SSTable 


当 活 跃 的 MemTab1e 超 过 一 定 大 小 或 者 管理 员 主 动 发 起 冻结 命令 时 ， 活 跃 的 MemTable 
将 被 冻结 ， 生 成 冻结 的 MemTable， 并 同时 以 SSTab1e 的 形式 转 储 到 SSD 磁 盘 中 。 


ssTable 的 详细 格式 请 参考 9.4 节 ChunkServer 实 现 机 制 ， 与 ChunkSserver 中 的 
ssTable 不 同 的 是 ，UpdateServer 中 所 有 的 表格 共用 一 个 SsSTable ，, 且 SSTable 为 


REI , Emen, BATRA — AREFE , ERENT EIKER. 


另外 ，0ceanBase 设 计时 也 尽量 避免 读 取 UpdateSserver 中 的 SSTable ， 只 要 内 人 存 足 
够 ， 冻 结 的 MemTab1e 会 保留 在 内 人 存 中 ， 系 统 会 尽快 将 冻结 的 数据 通过 定期 合并 或 者 
数据 分 发 的 方式 转移 到 Chunkserver 中 去 ， 以 后 不 再 需要 访问 UpdateServer 中 的 
SSTable 数 据 。 


当然 ， 如 果 内 人 存 不 够 需要 丢弃 冻结 MemTable， 大 量 请 求 只 能 读 取 SsD 磁 盘 ， 
UpdateServer 性 能 将 大 幅 下 降 。 因 此 ， 希望 能 够 在 丢弃 冻结 MemTable 之 前 将 
SSTable 的 缓存 预 热 。 


UpdateServer 的 缓存 预 热 机 制 实现 如 下 : 在 丢弃 冻结 MemTable 之 前 的 一 段 时 间 

( 比如 16 分 钟 ) ， 每 隔 一 段 时 间 ( 比如 36 秒 ) ， 将 一 定 比率 ( 比如 5% ) 的 请 求 友 给 
sSSTable ， 而 不 是 冻结 MemTable。 这 样 ，SSTable 上 的 读 请 求 将 从 5% 到 16% ， 再 到 
15%， 依 次 类 推 ， 直 到 166%， 很 自然 地 实现 了 缓存 预 热 。 


9.3.2 任务 模型 


任务 模型 包括 网 络 框 架 、 任 务 队 列 、 工 作 线 程 ，UpdateServer 最 初 的 任务 模型 基于 
淘宝 网 实现 的 Tbnet 框 架 ( 已 开源 , Whttp://code.taobao.org/p/tb-common- 
utils/src/trunk/tbnet/) 。Tbnet 封 装 得 很 好 ， 使 用 比较 方便 ， 每 秒 收 包 个 数 
最 多 可 以 达到 接近 16 万 ， 不 过 仍然 无 法 完全 发 挥 Updateserver 收 发 小 数据 包 以 及 内 
存 服务 的 特点 。0ceanBase 后 来 采用 优化 过 的 任务 模型 Libeasy， 人 小 数据 包 处 理 能 


得 到 进一步 提升 。 


1.Tbnet 


如 图 9-5 所 示 ，Tbnet 队 列 模型 本 质 上 是 一 个 生产 者 一 消费 者 队列 模型 ， 有 两 个 线 
程 : 网 络 读 写 线程 以 及 超时 检查 线程 ， 其 中 ， 网 络 读 写 线程 执行 事件 循环 ， 当 服务 
器 端 有 可 读 事件 时 ， 调 用 回调 尔 数 读 取 请 求 数据 包 ， 生成 请 求 任务 ， 并 加 入 到 任务 
队列 中 。 工 作 线 程 从 任务 队列 中 获取 任务 ， 人 处理 完 成 后 触 友 可 写 事件 ， 网 络 读 写 线 
程 会 将 处 理 结果 发 送 给 客户 端 。 超 时 检查 线程 用 于 将 超时 的 请 求 移 除 。 





9-5 Tbnet 队 列 模型 


Tbnet 模 型 的 问题 在 于 多 个 工作 绪 程 从 任务 队列 获取 任务 需要 加 锁 互 矿 , 这 个 过 程 将 
产生 大 量 的 上 下 文 切 换 (context switch) ， 测试 发 现 ， 当 UpdateServer 每 秒 处 
理 包 的 数量 超过 8 万 个 时 ，Updateserver 每 秒 的 上 下 文 切换 次 数 接近 36 万 次 ， 人 在 测 
试 环境 中 已 经 达到 极限 ( 测试 环境 配置 : Linux 内 核 2.6.18 ，CPU 为 2*Intel 
Nehalem E5526， 共 8 核 16 线 程 ) 。 


2.Libeasy 


为 了 解决 收 皮 小 数据 包 市 来 的 上 下 文 切 损 问 题 ，0ceanBase 目 前 采用 Libeasy 任 务 模 


型 。Libeasy 玉 用 多 个 线程 收 友 包 ，, 增强 了 网 络 收 友 能 力 ， 每 个 线程 收 到 网 络 包 后 
立即 处 理 ， 减 少 了 上 下 文 切换 ， 如 图 9-6 所 示 。 






得 任务 就 地 
处 理 


9-6 Libeasy 任 务 模型 


UpdateSserver 有 多 个 网 络 读 写 线程 ， 每 个 线程 通过 Linux epoo1 监 听 一 个 套 接 字 集 
合 上 的 网 络 读 写 事件 ， 每 个 套 接 字 只 能 同时 分 配给 一 个 线程 。 当 网 络 读 写 线程 收 到 
网 络 包 后 ， 了 立即 调用 任务 处 理 遂 数 ， 如 果 任 务 处 理 时 间 很 短 ， 可 以 很 快 完成 并 回复 
客户 疹 ， 不 需要 加 锁 ， 避 免 了 上 下 文 切换 。Updateserver 中 大 部 分 任务 为 得 任务 , 
比如 随机 读 取 内 存 表 ， 另 外 还 有 少量 任务 需要 等 待 共享 资源 上 的 锁 ， 可 以 将 这 些 任 
务 加 入 到 长 任务 队列 中 ， 交 给 专门 的 长 任务 处 理 线 程 处 理 。 


由 于 每 个 网 络 读 写 线程 处 理 一 部 分 预先 分 配 的 套 接 字 ， 这 残 可 能 出 现 某 些 套 接 字 上 
请 求 特别 多 而 导致 负载 不 均衡 的 情况 。 例 如 ， 有 两 个 网 络 读 写 线程 thread1 和 


thread2， 其 中 thread1 处 理 套 接 字 fd1、fd2，thread2 处 理 套 接 字 fd3、fd4，fd1 
和 fd2 上 每 秒 1986 次 请 求 ，fd3 和 fd4 上 每 秒 16 次 请 求 ， 两 个 线程 之 间 的 负载 很 不 均 
衡 。 为 了 处 理 这 种 情况 ，Libeasy 内 部 会 自动 在 网 络 读 写 线程 之 间 执 行 负载 均衡 操 
作 ， 将 套 接 字 从 负载 较 高 的 线程 迁移 到 负载 较 低 的 线程 。 


9.3.3 主 备 同步 


8.4.1 节 已 经 介绍 了 Updateserver 的 一 致 性 选择 。oceanBase 选 择 了 强 一 致 性 ， 
主 updateserver 往 备 UpdateServer 同 步 操 作 日 志 ， 如 果 同 步 成 功 ， 主 
UpdateSserver 操 作 本 地 后 返回 客户 端 更 新 成 功 ， 人 否则 ， 主 Updateserver 会 把 备 
Updateserver 从 同步 列表 中 剔除 。 另 外 ， 剔 除 备 Updateserver 之 前 需要 通知 
RootServer,， 从 而 防止 RootSserver 将 不 一 致 的 备 UpdateSserver 选 为 主 


UpdateServer, 


如 图 9-7 所 示 ， 主 Updateserver 往 备 机 推送 操作 日 志 ， 备 Updateserver 的 接收 线 
程 接收 日 志 ， 并 写 入 到 一 块 全 局 日 志 缓 冲 区 中 。 备 Updateserver 只 要 接收 到 日 志 就 
可 以 回复 主 UpdateServer 同 步 成 功 ， 主 UpdateServer 接 着 更 新 本 地 内 存 并 将 日 志 
刷 到 磁盘 文件 中 ， 最 后 回复 客户 端 写 入 操作 成 功 。 这 种 方式 实现 了 强 一 致 性 ， 如 果 
主 UpdateServer 出 现 故 障 ， 备 UpdateServer 包 含 所 有 的 修改 操作 ， 因 而 能 够 完全 
无 颖 地 切换 为 主 UpdateServer 继 续 提供 服务 。 另 外 ， 主 备 同步 过 程 中 要 求 主机 刷 磁 
盘 文 件 ， 备 机 只 需要 写 内 存 缓冲 区 ， 强 同步 带 来 的 额外 延 时 也 几乎 可 以 忽略 。 


f UpdateServer 
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9-7 UpdateServer 主 备 同步 原理 


正常 情况 下 ， 备 UpdateServer 的 日 志 回 放 线 程 会 从 全 局 日 志 缓 冲 区 中 读 取 操作 日 
i& , 在 内 存 中 回放 并 同时 将 操作 日 志 刷 到 备 机 的 日 志文 件 中 。 如 果 发 生 异常 ， 比 如 
mE r 隐 启动 或 者 主 备 之 间 网 络 刚 恢复 ， 全 局 日 志 缓冲 区 中 没有 日 志 或 者 
日 志 不 , 此 时 ， 备 UpdateServer 需 要 主动 请 求 主 UpdateServer 拉 取 操 作 日 

志 。 i 如 果 缓 冲 区 中 没有 数据 ， 还 需要 读 取 磁 
盘 日 志文 件 ， 并 将 操作 日 志 回复 备 UpdateServer。 代 码 如 下 : 


class ObReplayLogSrc 


public: 
// 读 取 一 批 待 回放 的 操作 日 志 


//@param[in]start_cursor 日 志 起 始点 


//@param[out]end_id 读 取 到 的 最 大 日 志 号 加 1， 即 下 一 次 读 取 的 起 始 日 志 号 
//@param[in]buf 日 志 缓 ) 冲 区 

//@param[in]1len 日 志 缓 冲 区 长 度 

//Qparam[out]read countiiiEX SUB E Tz 


int get log(const ObLogCursor&start cursor,int64 t& 


end id,char*buf,const int64 t len,int64 t&read count); 


B 


class ObUpsLogMgr 


public: 


enum WAIT_SYNC_TYPE 


WAIT NONE-20, 
WAIT COMMIT-1, 


WAIT FLUSH-2, 


}; 


public: 
// 备 UpdateServer 接 收 主 UpdateServer 发 送 的 操作 日 志 


int slave receive log(const char*buf,int64 t len,const int64 t 


wait sync time us,const WAIT SYNC TYPE wait event type); 


// 备 UpdateServer 获 取 并 回放 操作 日 志 


int replay log(); 
}; 


备 UpdateServer 接 收 到 主 UpdateServer 发 送 的 操作 日 志 后 ， 调 用 0bUpsLogMgr 类 
的 slave_receive_log 将 操作 日 志保 存 到 日 志 缓 ;中 区 中 。 备 UpdateServer 可 以 配 
置 成 不 等 待 ( WAIT_NONE ) 、 等 待 提交 到 MemTable ( WAIT COMMIT ) 或 者 等 待 提交 
到 MemTable 且 写 入 磁盘 ( WAIT_FLUSH ) 。 另 外 ， 备 Updateserver 有 专门 的 日 志 

放 线 程 不 断 地 调用 0bUpsLogMgr 中 的 replay_log 消 数 获取 并 回放 操作 日 志 。 


备 UpdateServer 执 行 replay_1og 国 数 时 ， 首 先 调用 ObRep1ayLogSsrc 的 get_1log 国 
数 读 取 一 批 待 回放 的 操作 日 志 ， 接着 ， 将 操作 日 志 应 用 到 MemTable 中 并 写 入 日 志文 
件 持久 化 。Get_1og 消 数 执行 时 首先 查看 本 机 的 日 志 缓 ;站 区 ， 如 果 缓 冲 区 中 不 存在 

日 志 起 始点 ( start cursor) 开始 的 操作 日 志 ， 那 么 ， 生 成 一 个 异步 任务 ， 读 取 主 
UpdateSserver。 一 般 情 况 下 ，slave_receive_1og 接 收 的 日 志 刚 加 入 日 志 缓 冲 区 
融 被 get_1og 读 走 了 ， 不 需要 读 取 主 UpdateSserver。 


9.4 ChunkSserver 实 现 机 制 


ChunkServer 用 于 存储 基线 数据 ， 它 由 如 下 基本 部 分 组 成 : 

e 管 理子 表 ， 主 动 实现 子 表 分 裂 ， 配 合 Rootserver 实 现 子 表 迁 移 、 删 除 、 合 并 ; 
eSsTable， 根 据 主键 有 序 存储 每 个 子 表 的 基线 数据 ， 

e 基 于 LRU 实 现 块 缓 仔 (Block cache ) 以 及 行 缓存 ( Row cache) ; 

e 实 现 Direct IO , 磁盘 Io 与 CPU 计算 并 行 化 ; 

e 通 过 定期 合并 & 数 据 分 发 获取 Updateserver 的 冻结 数据 ， 从 而 分 散 到 整个 集群 。 


每 人 台 ChunkServer 服 务 着 几 干 到 几 万 个 子 表 的 基线 数据 ， 每 个 子 表 由 若干 个 
ssTable 组 成 ( 一般 为 1 个 ) 。 下 面 从 SSTable 开 始 介 绍 chunkServer 的 内 部 实现 。 


9.4.1 子 表 管理 


每 台 Chunkserver 服 务 于 多 个 子 表 ， 子 表 的 个 数 一 般 在 168668 ~ 1000007 [B], 
Chunk-Server 内 部 通过 ObMultiVersionTabletImage 来 存储 每 个 子 表 的 索引 信 
息 ， 包 括 数 据 行 数 (row count) ， 数 据 量 ( occupy_size ) ， 校 验 和 

( check_sum )， 包 含 的 SSTable 列 表 ， 所 在 磁盘 编号 (disk no) 等 ， 代 码 如 下 : 


class ObMultiVersionTabletImage 


{ 
public: 


// 获 取 第 一 个 包含 指定 数据 学 围 的 子 表 


//8param[in]rangezids; 58] 
//@param[in]scan_direction 正 向 扫描 ( 默认 ) 还 是 逆向 扫描 
//@param[in]version 子 表 的 版 本 号 
//@param[out]tablet 获 取 的 子 表 索 引 结 构 


int acquire tablet(const ObNewRange&range,const ScanDirection 


scan direction,const int64 t version,ObTablet* &tablet)const; 
/ /FED— 1 


int release tablet(ObTablet*tablet); 





// 新 增 一 个 子 表 ，1oad_sstable 表 示 是 否 立 即 加 载 其 中 的 SSTable 文 件 


int add tablet(ObTablet*tablet,const bool load sstable=false); 


// 每 日 合并 后 升级 子 表 到 新 版 本 ，load_sstable 表 示 是 否 立 即 加 载 新 版 本 的 
ssTable 文 件 


int upgrade tablet(ObTablet*old tablet,ObTablet*new tablet,const 


bool load sstable=false); 


// 每 日 合并 后 升级 子 表 到 新 版 本 ， 且 子 表 友 生 分 裂 ， 有 一 个 变 成 多 个 。 
1oad_sstab1e 表 示 是 否 立 即 加 载 分 裂 后 的 SSTable 文 件 


int upgrade tablet(ObTablet*old tablet,ObTablet*new tablets[], 


const int32 t split size,const bool load sstable-false); 


// 删 除 一 个 指定 数据 范围 和 版 本 的 子 表 

int remove tablet(const ObNewRange&range,const int64 t version); 
// 删 除 一 个 表格 对 应 的 所 有 子 表 

int delete table(const uint64 t table id); 

// 获 取 下 一 批 需要 进行 每 日 合并 的 子 表 

//@param[in]version 子 表 的 版 本 号 

//@param[out]size 下 一 批 需要 进行 每 日 合并 的 子 表 个 数 
//@param[out]tablets 下 一 批 需要 进行 每 日 合并 的 子 表 索引 结构 


int get tablets for merge(const int64 t version,int64 t& 
size,ObTablet*&tablets[])const; 

}; 

Chunkserver 维 护 了 多 个 版 本 的 子 表 数 据 ， 每 日 合并 后 升级 子 表 的 版 本 号 。 如 果子 
表 友 生 分 有 裂 ， 每 日 合并 后 将 由 一 个 子 表 变 成 多 个 子 表 。 子 表 相 关 的 操作 方法 包括 : 


1 ) add tablet: 新 增 一 个 子 表 。 如 果 1load_sstab1le 人 参数 为 true， 那 么 ， 立 即 加 
载 其 中 的 SSTable 文 件 。 否 则 ， 使 用 延迟 加 载 策略 ， 即 读 取 子 表 时 再 加 载 其 中 的 
SSTable, 


2) remove tablet : 删除 一 个 子 表 。Rootserver 友 现 某 个 子 表 的 副本 数 过 多 ， 则 
会 通知 其 中 某 台 ChunkSserver 删 除 指 定 的 子 表 。 


3) delete table : 删除 表格 。 用 户 执行 删除 表格 命令 时 ，Rootserver 会 通知 每 台 
Chunkserver 删 除 表格 包含 的 所 有 子 表 。 


4) upgrade tablet : 每 日 合并 后 升级 子 表 的 版 本 号 。 如 果 没有 友 生 分 腊 ， 只 需要 
将 老子 表 的 版 本 号 加 1 ; 否则 ， 将 老子 表 蔡 换 为 多 个 范围 连续 的 新 子 表 ， 每 个 新 子 表 
的 版 本 号 均 为 老子 表 的 版 本 号 加 1。 


5) acquire tablet/release tablet : 读 取 时 首先 调用 acquire_tablet 获 取 一 
个 子 表 ， 增 加 该 子 表 的 引用 计数 从 而 防止 它 在 读 取 过 程 中 被 释放 掉 ， 接 着 读 取 其 中 
的 SsTable， 最 后 调用 release_tab1let 释 放 子 表 。 


6)get tablets for merge : 每 日 合并 时 通过 调用 该 函数 获取 下 一 批 需要 进行 每 
日 合并 的 子 表 。 


9.4.2 SSTable 


如 图 9-8 所 示 ，SSTable 中 的 数据 按 主键 排序 后 存放 在 连续 的 数据 块 ( Block ) 中 ， 
Block 之 间 也 有 序 。 接 着 ， 存放 数据 块 达 引 (Block Index) ， 由 每 个 Block 最 后 一 
行 的 主键 ( End Key ) 组 成 ， 用 于 数据 查询 中 的 Block 定 位 。 接 着 ， 存 放 布 隆 过 滤器 
(Bloom Filter) 和 表格 的 Schema 信息 。 最 后 ， 人 存放 固定 大 小 的 Trailer 以 及 
Trailer 的 偏 移 位置 。 
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9-8 SSTable 格 式 


查找 SSTable 时 ， 首 先 从 子 表 的 索引 信息 中 读 取 SsTable Trailer 的 偏 移 位 置 ， 接 
着 获取 Trailer 信 息 。 根 据 Trailer 中 记录 的 信息 ， 可 以 获取 块 索引 的 大 小 和 偏 移 ， 
从 而 将 整个 块 索引 加 载 到 内 存 中 。 根 据 块 索引 记录 的 每 个 Block 的 最 后 一 行 的 主键 ， 
可 以 通过 二 分 查找 定位 到 查找 的 Block。 最 后 将 Block 加 载 到 内 存 中 ， 通 过 二 分 查找 
Block 中 记录 的 行 索 引 ( Row Index) 查找 到 具体 某 一 行 。 本 质 上 看 ，SSTable 是 一 
个 两 级 索引 结构 : 块 索 引 以 及 行 索 3 引 ; 而 整个 chunkserver 是 一 个 三 级 索引 结构 : 
子 表 索 引 、 块 索引 以 及 行 索引 。 





SSTable 分 为 两 种 格式 : REAKTAR. XJ Weller, iZEPURIBECT 
在 ,也 可 能 不 存在 ,因此 ， 每 一 行 只 存储 包含 实际 值 的 列 ， 每 一 列 和 存储 的 内 容 为 : 
< 列 ID , 列 值 > ( «Column ID,Column Value» ) ; 而 稠密 格式 中 每 一 行 都 需要 
存储 所 有 列 ， 每 一 列 只 需要 存储 列 值 ， 不 需要 仓储 列 ID， 这 是 因为 列 ID 可 以 从 表格 
Schema 中 获取 。 


例 9-4 假设 有 一 张 表格 包含 16 列 ， 列 ID 为 1~ 16， 表 格 中 有 一 行 的 数据 内 容 为 : 


column id=2 column id =3 column id =5 column id ^7 column id ^8 





[» |» —I» ee 


那么 ， 如 果 采 用 稀 琉 格式 存储 ， 内容 为 : <2,20>, <3,30> , <5,50>, < 
7,70» , «8,80» ; 如 果 采 用 稠密 格式 存储 ， 内 容 为 : null, 20, 30, null, 


50 , null , 70,980, null,null, 


ChunkServer 中 的 SSTable 为 稠密 格式 ， 而 UpdateServer 中 的 SSTable 为 稀疏 格 
式 ， 且 存储 了 多 张 表格 的 数据 。 另 外 ，SSTable 文 持 列 组 ( Column Group )， 将 同 
一 个 列 组 下 的 多 个 列 的 内 容 存 储 在 一 块 。 列 组 是 一 种 行列 混合 存储 模式 ， 将 每 一 行 
的 所 有 列 分 成 多 个 组 ( 称 为 列 组 ) ， 每 个 列 组 内 部 按 行 存 储 。 


如 图 9-9 所 示 ， 当 一 个 SsTable 中 包含 多 个 表格 / 列 组 时 ， 数据 按 照 [表格 ID， 列 组 
ID, 行 主键 ] ( [table id,column group id,row key]) 的 形式 有 序 存储 。 
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9-9 SSTable 包 含 多 个 表格 / 列 组 


另外 ，SSTable 支 持 压 缩 功 能 ， 压 缩 以 Block 为 单位 。 每 个 Block 写 入 人 磁盘 之 前 调用 
压缩 算法 执行 压缩 ， 读 取 时 需要 解压 缩 。 用 户 可 以 自 定义 SSTable 的 压缩 算法 ， 目 
前 支持 的 算法 包括 LZO 以 及 Snappy。 


ssTable 的 操作 接口 分 为 写 入 和 读 取 两 个 部 分 ， 其 中 ， 写 入 类 为 
ObSsSTableWriter， 读 取 类 为 ObSssTableGetter ( 随机 读 取 ) 和 
ObSSTableScanner ( 范围 查询 ) 。 代 码 如 下 : 


class ObSSTableWriter 


public: 

// 创 建 ssTable 

//@param[in]schema 表 格 schema 信 息 

//@param[in]path SSTable 在 磁盘 中 的 路 径 名 
//@param[in]compressor_name 压 缩 算法 名 
//@param[in]store_type SSTable 格 式 ， 稀 疏 格 式 或 者 稠密 格式 
//@param[in]block_size 块 大 小 ， 默认 64KB 


int create sstable(const ObSSTableSchema &schema,const ObString& 
path,const ObString&compressor name,const int store type,const 


int64 t block size); 

// 往 SSTable 中 追加 一 行 数据 

//@param[in]row 一 行 SSTable 数 据 

//@param[out]space_usage 追 加 完 这 一 行 后 SSTable 大 致 占用 的 磁盘 空间 
int append row(const ObSSTableRow&row,int64 t&space usage); 


// 关 闭 SSTable， 将 往 磁 盘 中 写 入 Block Index,Bloom Filter,Schema,Trailer 


一 
等 信息 


//@param[out]trailer_offset 返 回 sSSTable 的 Trailer 偏 移 量 


int close sstable(int64 t&trailer offset); 

); 

定期 合并 & 数 据 分 友 过 程 将 产生 新 的 SSTable， 步 骤 如 下 : 

1 ) 调用 create_sstable 函 数 创建 一 个 新 的 SsTable ; 

2 ) 不 断 调 用 append_row 函 数 往 ssTable 中 追加 一 行 行 数据 ; 
3 ) 调用 close_sstable 完 成 SSTable 写 入 。 


与 9.2.1 节 中 的 MemTableIterator 一 样 ，ObSSTableGetter 和 0bSsSTableScanner 
实现 了 迭代 器 接口 ， 通 过 它 可 以 不 断 地 获取 SSTab1le 的 下 一 个 cel11。 


class ObIterator 


public: 
迭代 器 移动 到 下 一 个 cell 

int next cell(); 

// 获 取 当 前 cel11 的 内 容 


//Qparam[out]cell info 当 前 cel1 的 内 容 ， 包括 表 名 (table id) ， 行 主键 
( row key ) ， 列 编号 ( column id) 以 及 列 值 ( column value) 


int get cell(ObCellInfo**cell info); 


// 获 取 当 前 ce11 的 内 容 

//Qparam[out]cell _info 当 前 cell 的 内 容 

//@param is_row_changed 是 否 迭 代 到 下 一 行 

int get cell(ObCellInfo**cell info,bool*is row changed); 
}; 


OceanBase 读 取 的 数据 可 能 来 源 于 MemTable， 也 可 能 来 源 于 SSTable， 或 者 是 合 
多 个 MemTable 和 多 个 SSTable 生 成 的 结果 。 无 论 底 层 数 据 来 源 如 何 变 化 ， 上 层 的 读 


取 接 口 总 是 O0bIterator。 
9.4.3 缓存 实现 


ChunkServer 中 包含 三 种 缓存 : HÆF (Block Cache ) 、 行 缓存 ( Row Cache ) 
以 及 块 索引 缓 仔 (Block Index Cache) 。 其 中 ， 块 缓存 中 存储 了 SSTable 中 访问 
较 热 的 数据 块 ( Block )， 行 缓存 中 存储 了 ssTable 中 访问 较 热 的 数据 行 (Row) , 
而 块 索引 缓存 中 存储 了 最 近 访 问 过 的 SSTable 的 块 索引 (Block Index ) 。 一 般 来 
说， 块 系 引 不 会 太 大 ，ChunkSserver 中 所 有 ssTable 的 块 宗 3 引 都 是 弟 驻 内 存 的。 不 
同 缓存 的 底层 采用 相同 的 实现 方式 。 


1. 底 层 实现 


经 典 的 LRU 缓 存 实现 包含 两 个 部 分 : 哈 希 表 和 和 LRU 链表 ， 其 中 ， 哈 希 表 用 于 查找 缓存 
中 的 元 素 ，LRU 链 表 用 于 淘汰 。 每 次 访问 LRU 缓 存 时 ， 需 要 将 被 访问 的 元 素 移动 到 
LRU 链 表 的 头 部 ， 从 而 避免 被 很 快 淘汰 ， 这 个 过 程 需要 锁 住 LRU 链 表 。 


如 图 9-16 所 示 ， 块 缓存 和 行 缓存 底层 都 是 一 个 Key-Value Cache , 实现 步骤 如 下 : 
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9-10 Key-Value Cache 的 实现 


1) 0ceanBase 一 次 分 配 1MB 的 连续 内 存 块 ( 称 为 nemblock ) ， 每 个 nremblock 包 含 
若干 缓存 项 (item), 。 添 加 item 时 ， 只 需要 简单 地 将 item 仍 加 到 memblock 的 尾 
部 ; 另外 ， 缓 存 淘汰 以 memblock 为 单位 ， 而 不 是 以 让 em 为 单位 。 


2 ) 0ceanBase 没 有 维护 LRU 链 表 ， 而 是 对 每 个 nemblock 都 维护 了 访问 次 数 和 最 近 频 
繁 访问 时 间 。 访 问 memblock 中 的 item 时 将 增加 memblock 的 访问 次 数 ， 如 果 最 近 一 
段 时 间 之 内 的 访问 次 数 超过 一 定 值 ， 那 么 ， 更 新 最 近 频 繁 访问 时 间 ; 淘汰 memblock 
时 ， 对 所 有 的 memblock 按 照 最 近 频 繁 访问 时 间 排 序 ， 淘 汰 最 近 一 段 时 间 访 问 较 少 的 
memblock。 可 以 看 出 ， 读 取 时 只 需要 更 新 memblock 的 访问 次 数 和 最 近 频 繁 访问 时 
间 ， 不 需要 移动 LRU 链 表 。 这 种 实现 方式 通过 牺牲 LRU 算 法 的 精确 性 ， 来 规避 LRU 链 


表 的 全 局 锁 ) 中 突 。 


3 ) 每 个 nemblock 维 护 了 引用 计数 ， 读 取 缓 存 项 时 所 在 memblock 的 引用 计数 加 1 ， 
淘汰 memblock 时 引用 计数 减 1，3 引 | 用 计数 为 9 时 memblock 可 以 回收 重用 。 通 过 引用 
计数 ， 实 现 读 取 memblock 中 的 缓存 项 不 加 锁 。 


2 . 惊 群 效 应 


以 行 缓存 为 例 ， 假 设 chunkSserver 中 有 一 个 热点 行 ，ChunkServer 中 的 N 个 工作 线程 
( 假设 为 N=58 ) 同时 发 现 这 一 行 的 缓存 失效 ， 于是， 所 有 工作 线程 同时 读 取 这 行 数 
据 并 更 新 行 缓 仔 。 可 以 看 出 ，N-1 共 49 个 线程 不 仅 做 了 无 用 功 ， 还 增加 了 锁 冲 突 。 这 
种 现象 称 为 “ 惊 群 效应 ”。 为 了 解决 这 个 问题 ， 第 一 个 线程 发 现行 缓存 失效 时 会 往 
缓存 中 加 入 一 个 fake 标 记 ， 其 他 线程 发 现 这 个 标记 后 会 等 待 一 段 时 间 ， 直 到 第 一 个 
线程 从 SsSTable 中 读 到 这 行 数据 并 加 入 到 行 缓存 后 ， 再 从 行 缓存 中 读 取 。 


算法 描述 如 下 : 

调用 internal_get 读 取 一 行 数据 ; 

if( 行 不 仓储 ) 

调用 internal_set 往 缓存 中 加 入 一 个 fake 标 记 ; 

从 ssTable 中 读 取 数据 行 ; 

将 SsTable 中 读 到 的 行内 容 加 入 缓存 ， 清 除 fake 标 记 ， 唤 醒 等 待 线程 ; 


返回 读 到 的 数据 行 ; 


Jelse if( 行 存在 且 为 fake 标 记 ) 

{ 

线程 等 待 ， 直 到 清除 fake 标 记 ; 

if( 等 待 成 功 ) 返 回 行 缓存 中 的 数据 ; 
if( 等 待 超时 ) 返 回 读 取 超时 ; 

) 


else 


{ 
返回 行 缓存 中 的 数据 ; 
} 

3 .缓存 预 热 


ChunkServer 定 期 合并 后 需要 使 用 生成 的 新 的 SSTable 提 供 服务 ， 如 果 大 量 请 求 同 
时 读 取 新 的 SSTable 文 件 ， 将 使 得 ChunkSserver 的 服务 能 力 在 切换 SSTable 瞬 间 大 幅 
下 降 。 因 此 ， 这 里 需要 一 个 缓 仓 预 热 的 过 程 。0ceanBase 最 初 的 版 本 实现 了 主动 缓 
存 预 热 ， 即 : 扫描 原来 的 缓存 ， 根据 每 个 缓存 项 的 key 读 取 新 的 SSTable 并 将 结果 加 
入 到 新 的 缓存 中 。 例 如 ， 原 来 缓存 数据 项 的 主键 分 别 力 166、2606、588， 那么 只 需 
要 从 新 的 SSTable 中 读 取 主 键 为 166、266、566 的 数据 并 加 入 新 的 缓存 。 扫 描 完 成 
后 ， 原 来 的 缓存 可 以 丢弃 。 


线 上 运行 一 段 时 间 后 发现 ， 定 期 合并 基本 上 都 安排 在 凌晨 业务 低 峰 期 ， 合 并 完成 后 
oceanBase 集 群 收 到 的 用 户 请 求 总 是 由 少 到 多 ( 早上 7 操 之 前 请 求 很 少 ， 9 点 以 后 请 


求 逐步 增多 ) ， 能 够 很 自然 地 实现 被 动 缓存 预 热 。 由 于 ChunkServer 在 主动 组 存 预 
热 期 间 需 要 占用 两 倍 的 内 存 ， 因 此 ， 目 前 的 线 上 版 本 放弃 了 这 种 万 式 ， 转 而 采用 被 
nj CE TRA, 


9.4.4 IO 实现 


OceanBase 没 有 使 用 操作 系统 本 身 的 页 面 缓 仔 (page cache ) 机 制 ， 而 是 自己 实现 
缓 仔 。 相 应 地 ，I0 也 采用 Direct I0 实 现 ， 并 且 支 持 磁盘 IT0 与 CPU 计 算 并 行 化 。 


ChunkServer 采 用 Linux 的 Libaio[1] 实 现 异 步 10， 并 通过 双 缓 冲 区 机 制 实现 磁盘 
预 读 与 CPU 处 理 并 行 化 ， 实 现 步骤 如 下 : 


1) 分 配 当前 ( current ) 以 及 预 读 ( ahead ) 两 个 缓冲 区 ; 


2 ) 使 用 当前 缓冲 区 读 取 数据 ， 当 前 缓冲 区 通过 Libaio 发 起 异步 读 取 请 求 ， 接 着 等 
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3) 异步 读 取 完 成 后 ， 将 当前 缓冲 区 返回 上 层 执行 CPU 计算 ， 同 时 ， 原 来 的 预 读 缓冲 
又 变 为 新 的 当前 缓冲 区 ， 友 送 异 步 读 取 请 求 将 数据 读 取 到 新 的 当前 缓冲 区 。CPU 计 算 
完成 后 ， 原 来 的 当前 缓冲 区 变 为 空闲 ， 成 为 新 的 预 读 缓冲 区 ， 用 于 下 一 次 预 读 。 


4) 重复 步骤 3 ) ， 和 直到 所 有 数据 全 部 读 完 。 


例 9-5 假设 需要 读 取 的 数据 范围 为 ( 1， 150] ,分 三 次 读 取 : (1,50], (50, 
100] ，( 1868，158]， 当 前 和 预 读 缓 冲 区 分 别 记 为 A 和 B。 实 现 步 又 如 下 : 


1) 友人 送 异步 请 求 将 ( 1，58] 读 取 到 缓冲 区 A， 等待 读 取 完 成 ; 
2 ) 对 缓冲 区 A 执 行 CPU 计算 ， 友 送 异步 请 求 ， 将 ( 58，1686] 读 取 到 缓冲 区 B ; 


3 ) 如 果 CPU 计 算 先 于 磁盘 读 取 完 成 ， 那 么 ， 缓 冲 区 A 变 为 空 六 ， 等 到 ( 56，166] 读 
取 完 成 后 将 缓冲 区 B 返 回 上 层 执行 CPU 计算 ， 同 时 ， 发 送 异 步 请 求 ， 将 (100, 150] 
读 取 到 缓 站 区 A ; 


4 ) 如 果 磁 盘 读 取 先 于 CPU 计算 完成 ， 那 么 ， 首 移 等 待 缓冲 区 A 上 的 CPU 计算 完成 ， 接 
者 ， 将 缓冲 区 B 返 回 上 层 执行 CPU 计算 ， 同 时 ， 友 送 异 步 请 求 ， 将 ( 168，1568] 读 取 
到 缓冲 区 A ; 


5 ) 等 待 ( 1986，156] 读 取 完 成 后 ， 将 缓冲 区 A 返 回 给 上 层 执行 CPU 计算 。 


双 缓 冲 区 广泛 用 于 生产 者 /消费 者 模型 ，Chunkserver 中 使 用 了 双 缓 冲 区 异步 预 读 的 
扩 术 ， 生 产 者 为 磁盘 ， 消 费 者 为 CPU， 磁 盘 中 生产 的 原始 数据 需要 给 CPU 计算 消费 
挥 。 


所 谓 “ 双 缓 ;中 区 ”顾名思义 束 是 两 个 缓冲 区 ( 简称 A 和 B ) 。 这 两 个 缓冲 区 ， 辟 是 
一 个 用 于 生产 者 ， 另 一 个 用 于 消费 者 。 当 两 个 缓冲 区 都 操作 完 ， 再 进行 一 次 切换 ， 
先前 被 生产 者 写 入 的 被 消费 者 读 取 ， 先 前 消费 者 读 取 的 转 为 生产 者 写 入 。 为 了 做 到 
不 冲突 ， 给 每 个 缓冲 区 分 配 一 把 豆 斥 锁 ( 简称 La 和 Lb ) 。 生 产 者 或 者 消费 者 如 果 要 
操作 某 个 缓冲 区 ， 必 须 先 拥 有 对 应 的 互 斥 锁 。 


双 缓 冲 区 包括 如 下 几 种 状态 : 


e 汉 缓冲 区 都 在 使 用 的 状态 ( 并 上 友 读 写 ) 。 大 多 数 情况 下 ， 生 产 者 和 消费 者 都 处 于 并 
发 读 写 状态 。 不 妨 设 生 产 者 写 入 A， 消 费 者 读 取 B。 在 这 种 状态 下 ， 生 产 者 拥有 锁 


La ; 同样 地 ， 消 费 者 拥有 锁 Lb。 由 于 两 个 缓冲 区 都 是 处 于 独占 状态 ， 因 此 每 次 读 写 
缓冲 区 中 的 元 素 都 不 需要 再 进行 加 锁 、 解 钠 操 作 。 这 是 节约 开销 的 主要 来 源 。 


e 单 个 缓冲 区 空闲 状态 。 由 于 两 个 并 发 实体 的 速度 会 有 差异 ， 必 然 会 出 现 一 个 缓冲 区 
已 经 操作 完 ， 而 另 一 个 尚未 操作 完 。 不 妨 假设 生产 者 快 于 消费 者 。 在 这 种 情况 下 ， 
当 生 产 者 把 A 写 满 的 时 候 ， 生 产 者 要 先 释放 La ( 表示 它 已 经 不 骨 操 作 A ) ， 然 后 尝试 
获取 Lob。 由 于 B 还 没有 被 读 空 ，Lb 还 被 消费 者 持 有 ， 所 以 生产 者 进入 等 待 ( wait) 


状态 
/No 


e 绥 ;中 区 的 切换 。 过 了 若干 时 间 ， 消费 者 终于 把 B 读 完 。 这 时 候 ， 消费 者 也 要 先 释 放 
Lb， 然 后 尝试 获取 La。 由 于 La 网 屠 已 经 被 生产 者 释放 ， 所 以 消费 者 能 立即 拥有 La 并 
开始 读 取 A 的 数据 。 而 由 于 Lb 被 消费 者 释放 ， 所 以 刚才 等 待 的 生产 者 会 苏醒 过 来 

( wakeup ) 并 拥有 Lb， 然 后 生产 者 继续 往 B 写 入 数据 。 


[1]0racle 公 司 实现 的 Linux 异 步 IT0 库 ， 开 源 地 址 : 


https://oss.oracle.com/projects/libaio-oracle/ 
9.4.5 定期 合并 & 数 据 分 友 


RootServer 将 UpdateServer 上 的 版 本 变化 信息 通知 ChunkServer 后 ， 
Chunkserver 将 执行 定期 合并 或 者 数据 分 友 。 


如 果 Updateserver 执 行 了 大 版 本 冻结 ，Chunkserver 将 执行 定期 合并 。 
Chunkserver 唤 醒 若 干 个 定期 合并 线程 ( 比如 16 个 ) ， 每 个 线程 执行 如 下 流程 : 


1) 加 锁 获 取 下 一 个 需要 定期 合并 的 子 表 ; 


2 ) 根据 子 表 的 主键 沁 围 读 取 Updateserver 中 的 修改 操作 ; 


3 ) 将 每 行 数据 的 基线 数据 和 增 量 数据 合并 后 ， 产 生 新 的 基线 数据 ， 并 写 入 到 新 的 
SSTable 中 ; 


4 ) 更 改 子 表 索 引信 息 ， 指 向 新 的 SSTable。 


等 到 ChunkServer 上 所 有 的 子 表 定期 合并 都 执行 完成 后 ，ChunkServer 会 向 
RootServer 汇 报 ，RootServer 会 更 新 RootTable 中 记录 的 子 表 版 本 信息 。 定 期 合 
并 一 般 安排 在 每 天 凌晨 业务 低 峰 期 ( 凌晨 1:86 开 始 ) 执行 一 次 ， 因 此 也 称 为 每 日 合 
并 。 另 外 ， 定 期 合并 过 程 中 Chunkserver 的 压力 比较 大 ， 需 要 控制 合并 速度 ， 人 否则 
可 能 影响 正常 的 读 取 服务 。 


如 果 UpdateSserver 执 行 了 小 版 本 冻结 ，Chunkserver 将 执行 数据 分 发 。 与 定期 合并 
不 同 的 是 ， 数 据 分 发 只 是 将 Updateserver 闷 结 的 数据 缓存 到 Chunkserver， 并 不 会 
生成 新 的 SSTable 文 件 。 因 此 ， 数 据 分 发 对 ChunkServer 造 成 的 压力 不 大 。 


数据 分 发 由 外 部 读 取 请 求 驱动 ， 当 请 求 Chunkserver 上 的 某 个 子 表 时 ， 除 了 返回 使 
用 者 需要 的 数据 外 ， 还 会 在 后 台 生 成 这 个 子 表 的 数据 分 友 任 务 ， 这 个 任务 会 获取 
UpdateServer 中 冻结 的 小 版 本 数据 ， 并 缓存 在 ChunkSserver 的 内 存 中 。 如 果 内 存 用 
完 ， 数 据 分 发 任务 将 不 再 进行 。 当 然 ， 这 里 可 以 做 一 些 改进 ， 比 如 除了 将 
UpdateServer 分 发 的 数据 存放 到 Chunkserver 的 内 存 中 ， 还 可 以 存储 到 ssD 磁 盘 
中 。 


例 9-6 假设 某 谷 Chunkserver 上 有 一 个 子 表 t1 ，,t1 的 主键 汽 围 为 ( 1 ,16]， 只 有 一 
行 数据 : rowkey=8=> ( «2, update , 20» , <3 , update , 30» , «4, 

update , 40» ) 。Updateserver 的 冻结 版 本 有 两 行 更 新 操作 : rowkey=8=> ( < 
2, update , 30> , «3 , up-date , 38» ) 和 rowkey=26=> ( «4 , update , 50 


> ) 。 


e 如 果 是 大 版 本 冻结 ， 那 么 ，chunkserver 上 的 子 表 t1 执 行 定 期 合并 后 结果 为 : 
ro-wkey=8= > ( «2, update , 30> , «3 , update , 38» , «4 , update , 40 


2); 


e 如 果 是 小 版 本 冻结 ， 那 么 ，chunkserver 上 的 子 表 t1 执 行 数据 分 发 后 的 结果 为 : 
rowkey=8=> ( «2, update , 20> , <3 , update , 30> , «4, update , 40> , 


<2 , update , 30» , <3 , update , 38» ), 
9.4.6 定期 合并 限 速 


定期 合并 期 间 系统 的 压力 较 大 ， 需 要 控制 定期 合并 的 速度 ， 避 免 影响 正常 服务 。 定 
期 合并 限 速 的 措施 包括 如 下 步骤 : 


1) ChunkServer : ChunkServer 定 期 合并 过 程 中 ， 每 合并 完成 若干 行 ( 默认 2666 
行 ) 数据 ， 就 查看 本 机 的 负载 ( 查看 Linux 系 统 的 Load 值 ) 。 如 果 负 载 过 高 ， 一 部 
分 定期 合并 线程 转 入 休眠 状态 ; 如 果 负 载 过 低 ， 了 唤醒 更 多 的 定期 合并 线程 。 另 外 ， 
RootServer 将 Updateserver 冻 结 的 大 版 本 通知 所 有 的 Chunkserver， 每 台 
ChunkServer 会 随机 等 待 一 段 时 间 再 开始 执行 定期 合并 ， 防止 所 有 的 ChunkServer 
同时 将 大 量 的 请 求 友 给 UpdateServer。 


2 ) UpdateServer : 定期 合并 过 程 中 ChunkServer 需 要 从 UpdateServer 读 取 大 量 的 
数据 ， 为 了 防止 定期 合并 任务 用 满 带宽 而 阻塞 用 户 的 正常 请 求 ，UpdateServer 将 任 
务 区 分 为 高 优先 级 ( 用 户 正常 请 求 ) 和 低 优 先 级 ( 定期 合并 任务 ) ， 并 单独 统计 每 
种 任务 的 输出 市 完 。 如 果 低 优先 级 任务 的 输出 市 宽 超 过 上 限 ， 降 低 低 优 先 级 任务 的 
处 理 速度 ; 反之 ， 适 当 提 高 低 优 先 级 任务 的 处 理 速 度 。 


如 果 0ceanBase 部 署 了 两 个 集群 ， 还 能 够 支持 主 备 集群 在 不 同时 间 段 进行 “ 错 峰 合 
并 ” : 一 个 集群 执行 定期 合并 时 ， 把 全 部 或 大 部 分 读 写 流量 切 到 另 一 个 集群 ， 该 集 
群 合并 完成 后 ， 把 全 部 或 大 部 分 流量 切 回 ， 以 便 另 一 个 集群 接着 进行 定期 合并 。 两 
个 集群 都 合并 完成 后 ， 恢 复 正 常 的 流量 分 配 。 


9.5 消除 更 新 瓶颈 


UpdateSserver 单 点 看 起 来 像 是 0ceanBase 架 构 的 软肋 ， 然 而 ， 经 过 oceanBase 团 队 
夺 续 不 断 地 性 能 优化 以 及 旁 路 导入 功能 的 开 上 有 友 ， 单 点 的 以 构 在 实践 过 程 中 经 受 住 了 
线 上 考验 。 每 年 淘宝 网 “ 双 十 一 ”光棍 节 ，0ceanBase 系 统 都 承载 着 核心 的 数据 库 
业务 ， 系 统 访问 量 出 现 5 到 18 倍 的 增长 ， 而 0ceanBase 只 需 简单 地 增加 机 器 即 可 。 


当然 ，Updateserver 单 点 架构 并 不 是 不 可 突破 。 虽 然 目前 Updateserver 单 点 架构 
还 不 是 瓶颈 ， 但 是 oceanBase 系 统 设 计时 已 经 留 好 了 “后 [ 门 ”， 以 后 可 以 通过 对 系 

统 打 补丁 的 方式 支持 UpdateServer 线 性 扩展 。 当 然 ， 这 里 可 能 会 做 一 些 牺牲， 比如 
短期 内 暂 不 支持 全 局 事务 ， 只 支持 针对 单个 用 户 的 事务 操作 。 


本 节 首 先 回顾 0ceanBase 已 经 实现 的 优化 工作 ， 包 括 读 写 性 能 优化 以 及 旁 路 导入 功 
能 ， 接 着 介绍 一 种 数据 分 区 实现 UpdateServer 线 性 扩展 的 方法 。 


9.5.1 读 写 优化 回顾 


OceanBase UpdateServer 相 当 于 一 个 内 存 数据 库 ， 其 架构 设计 和 “世界 上 最 快 的 
内 存 数据 库 ”MemsQ&L 比 较 类 似 ， 能 够 支持 每 秒 数 百 万 次 单行 读 写 操作 ， 这样 的 性 能 
对 于 目前 关系 数据 库 的 应 用 场景 都 是 足够 的 。 为 了 达到 这 样 的 性 能 指标 ， 我 们 已 经 
完成 或 正在 进行 的 工作 如 下 。 


1. 网 络 框 架 优 化 


9.2.2 节 中 提 到 ， 如 果 不 经 过 优化 ， 单 机 每 秒 最 多 能 够 接收 的 数据 包 个 数 只 有 16 万 
个 左右 ， 而 经 过 优化 后 的 1ibeasy 框 架 对 于 干 兆 网 卡 每 秒 最 多 收 包 个 数 超过 5e 万 ， 
对 于 万 兆 网 卡 则 超过 168 万 。 另 外 ，UpdateServer 内 部 还 会 在 软件 层面 实现 多 块 网 
卡 的 负载 均衡 ， 从 而 更 好 地 发 挥 多 网 卡 的 优势 。 通 过 网 络 框架 优化 ， 使 得 单机 支持 
百 万 次 操作 成 为 可 能 。 


2. 高 性 能 内 存 数据 结构 


Updateserver 的 底层 是 一 颗 高 性 能 内 存 B 树 。 为 了 最 大 程度 地 发挥 多 核 的 优势 ，B 树 
实现 时 大 部 分 情况 下 都 做 到 了 无 锁 ( lock-free ) 。 测 试 数据 表明 ， 即 使 在 普通 的 
16 核 机 器 上 ，0ceanBase B 树 每 秒 支持 的 单行 修改 操作 都 超过 156 万 次 。 


3. 写 操作 日 志 优 化 
在 软件 层面 ， 写 操作 日 志 涉 及 的 工作 主要 有 如 下 几 点 : 
1) 成 组 提交 。 将 多 个 写 操 作 聚 合 在 一 起 ， 一 次 性 刷 入 磁盘 中 。 


2 ) 降低 日 志 缓 冲 区 的 锁 ) 冲 突 。 多 个 线程 同时 往日 志 缓冲 区 中 追加 数据 ， 实 现时 需要 
尽 可 能 地 减少 退 加 过 程 的 锁 冲 突 。 奶 加 过 程 包含 两 个 阶段 : 第 一 个 阶段 是 占 位 ， 第 

二 个 阶段 是 拷贝 数据 ， 相 比较 而 言 ， 拷 贝 数据 比较 耗 时 。 实 现 的 天 键 在 于 只 对 占 位 

操作 互 斥 ， 而 允许 多 续 程 并 上 友 拷 贝 数据 。 例 如 ， 有 两 个 线程 ， 绪 程 1 和 线程 2， 他 们 

分 别 需要 往 缓冲 区 奶 加 大 小 为 166 字 节 和 大 小 为 386 字 蔬 的 数据 。 假 设 缓冲 区 初始 为 
空 ， 那 么 ， 线 程 1 可 以 首先 占 住 位 置 e ~ 160， 线 程 2 接着 占 住 160 ~ 366。 最 后 ， 线 程 
1 和 线程 2 并 友 将 数据 拷贝 到 刚才 占 住 的 位 置 。 


3) 日 志文 件 并 发 写 入 。Updateserver 中 每 个 日 志 缓 冲 区 的 大 小 一 般 为 2MB， 如 果 写 
入 太 快 ， 那 么 ， 很 快 会 产生 多 个 日 志 缓 冲 区 需要 刷 入 人 磁盘， 可 以 并 上 地 将 这 些 日 志 


在 硬件 层面 ，UpdateServer 机 器 需要 配置 较 好 的 RAID 卡 。 这 些 RAID 卡 自 带 绥 存 , 
而 且 容 量 比较 大 ( 例如 1GB ) ， 从 而 进一步 提升 写 人 磁盘 性 能 。 


4. 内 存 容量 优化 


随 着 数据 不 断 写 入 ，UpdateSserver 的 内 存 容 量 将 成 为 瓶 颈 。 因 此 ， 有 两 种 解决 思 
路 。 一 种 思路 是 精心 设计 UpdateServer 的 内 存 数据 结构 ， 尽 可 能 地 节省 内 存 使 用 ; 
另外 一 种 思路 束 是 将 UpdateServer 内 存 中 的 数据 很 快 地 分 友 出 去 。 


OceanBase 实 现 了 这 两 种 思路 。 首 先 ，UpdateServer 会 将 内 存 中 的 数据 编码 为 精心 
设计 的 格式 ， 从 9.3.1 节 中 可 以 看 出 ，168 以 内 的 64 位 整数 在 内 存 中 只 需要 占用 两 个 
字 节 。 这 种 编码 格式 不 仅 能 够 有 效 地 减少 内 存 占 用 ， 而 且 往 往 使 得 CPU 缓 仓 能 够 容纳 
更 多 的 数据 ， 从 而 弥补 编码 和 解码 操作 造成 的 性 能 损失 。 另 外 ， 当 Updateserver 的 
内 存 使 用 量 到 达 一 定 大 小 时 ，0ceanBase 会 自动 触发 数据 分 发 操作 ， 将 
Updateserver 的 数据 分 发 到 集群 中 的 ChunkSserver 中 ， 从 而 避免 updateSserver 的 
内 存 容量 成 为 苯 贷 。 当 然 ， 随 着 单机 内 存 容量 变 得 越 来 越 大 ， 普 通 的 2U 服 务 器 已 经 
具备 1TB 内 存 的 扩展 能 力 ， 数 据 分 友 也 可 能 只 是 一 种 过 渡 方 案 。 


9.5.2 数据 旁 路 导入 


昌 然 oceanBase 内 部 实现 了 大 量 优化 技术 ， 但 是 updateserver 单 点 写 入 对 于 某 些 
OLAP 应 用 仍然 可 能 成 为 问题 。 这 些 应 用 往往 需要 定期 ( 例如 每 天 ， 每 个 月 ) 导入 大 
批 数据 ， 对 导入 性 能 要 求 很 高 。 为 此 ，0ceanBase 专 门 开 发 了 旁 路 导入 功能 ， 本 节 


介绍 直接 将 数据 导入 到 Chunkserver 中 的 方法 ( 即 ChunkServer 旁 路 导入 ) 。 


OceanBase 的 数据 按照 全 局 有 序 排列 ， 因此， 旁 路 导入 的 第 一 步 束 是 使 用 Hadoop 
MapReduce 这 样 的 工具 将 所 有 的 数据 排 好 序 ， 并 且 划 分 为 一 个 个 有 序 的 荡 围 ， 每 个 
范围 对 应 一 个 SSTable 文 件 。 接 着 ， 再 将 SSTable 文 件 并 行 拷贝 到 集群 中 所 有 的 
ChunkServer 中 。 最 后 ， 通知 RootServer 要 求 每 个 chunkServer 并 行 加 载 这 些 
ssTable 文 件 。 每 个 SSTable 文 件 对 应 ChunkServer 的 一 个 子 表 ，ChunkServer 加 载 
完 本 地 的 SsTable 文 件 后 会 向 Rootserver 汇 报 ，RootServer 接 着 将 汇报 的 子 表 信 
息 更 新 到 RootTable 中 。 


例 9-7 有 4 台 ChunkServer : A、B、C 和 D。 所 有 的 数据 排 好 序 后 划分 为 6 个 范围 : 
r1(0-100], r2(100-200], r3 (200~300], r4(300—400], r5(400- 
500]. r6 ( 566~ 666]， 对 应 的 SSTable 文 件 分 别 记 为 sst1 ，sst2 ..... ,Sst6。 
假设 每 个 子 表 存 储 两 个 副本 ， 那 么 ， 找 贝 完 sSSTable 文 件 后 ， 可 能 的 分 布 情况 为 : 


A:sst1 , sst3, sst4 
B:sst2, sst3, sst5 
C:ssti1, sst4 , sst6 
D:sst2, sst5 , sst6 


接着 ， 每 个 Chunkserver 人 分别 加 载 本 地 的 SsTable 文 件 ， 完 成 后 向 RootSserver 汇 


报 。Rootserver 最 终 会 将 这 些 信息 记录 到 RootTable 中 ， 如 下 : 


r1(0-100]:A, C 


r2(100-200]:B, D 
r3(200-300]:A, B 
r4(300 —400]:A, C 
r5(400-500]:B, D 
r6(500-600]:C, D 


如 果 导 入 的 过 程 中 Chunkserver 友 生 故 障 ， 例 如 拷贝 sst1 到 机 器 CC 失败， 那么 ， 劳 路 
导入 模块 会 自动 选择 另外 一 台 机 器 拷贝 数据 。 


当然 ， 实 现 旁 路 导入 功能 时 还 需要 考虑 很 多 问题 。 例 如 ， 如 何 支持 将 数据 导入 到 多 
个 数据 中 心 的 主 备 0ceanBase 和 集群， 这 里 不 会 涉及 这 些 细节 。 


9.5.3 数据 分 区 


时 然 我 们 坚持 认为 通过 单机 性 能 优化 以 及 硬件 性 能 的 提升 ，UpdateSserver 单 点 对 于 
互联 网 数据 库 业 务 不 会 成 为 瓶颈 。 但 是 ， 随 着 0ceanBase 的 应 用 场景 越 来 越 广 ， 例 
如 ， 和 存储 原始 日 志 ， 我 们 也 可 能 需要 实现 更 新 书 点 可 扩展 。 本 节 探 讨 一 种 可 能 的 做 
法 。 


OceanBase 可 以 借鉴 关系 数据 库 中 的 分 区 表 的 概念 ， 将 数据 划分 为 多 个 分 区 ， 人 允许 
不 同 的 分 区 被 不 同 的 UpdateServer 服 务 。 例 如 ， 将 所 有 的 数据 按照 哈 希 的 方式 划分 


为 4696 个 分 区 ， 这 样 ， 同 一 个 集群 中 最 多 允许 4696 个 写 节点 。 


如 图 9-11 所 示 ， 可 以 将 Users 表 格 和 Albums 的 user_id 列 按照 相同 的 规则 做 哈 希 ， 
这 样 ， 同 一 个 用 户 的 所 有 数据 属于 相同 的 分 区 。 由 于 同一 个 分 区 只 会 被 同一 个 


Updateserver 服 务 ， 因 此 ， 保 证 了 同一 个 用 户 下 读 写 操作 的 事务 性 ， 另 外 ， 不 同 用 
户 乙 间 的 事务 可 以 通过 两 阶段 提交 或 者 最 终 一 致 性 的 方式 实现 。 这 种 方式 实现 起 来 
非 负 简单 ， 而 且 能 够 完全 兼容 SQL 语法 。 


CREATE TABLE Users | 
user id int not null, 
email varchar(100), 
PRIMARY KEY(user id) 
) PARTITION BY HASH(user id); 
CREATE TABLE Albums ( 
user id int not null, 


album id int, 


name varchar(100, 
PRIMARY KEY(user id, album id) 
) PARTITION BY HASH(user id); 





9-11 哈 硕 分 区 SQL 语法 


从 图 8-1 中 的 整体 架构 图 可 以 看 出 ， 在 目前 的 单 更 新 节操 架构 中 ，UpdateServer 进 
程 总 是 与 ChunkServer 进 程 部 署 到 不 同 的 服务 器 ， 而 且 两 种 服务 器 对 硬件 的 要 求 不 
同 。 如 果 0ceanBase 支 持 哈 希 分 区 ， 还 能 够 将 UpdateServer 进 程 和 ChunkServer 进 
程 部 署 到 一 起 ， 这 样 部 署 起 来 会 更 加 方便 。 


除了 哈 希 分 区 ，O0ceanBase 还 能 够 通过 汽 围 分 区 实现 更 新 节点 可 扩展 ， 即 不 同 的 用 
户 按 照 user_id 有 序 分 布 到 多 台 UpdateServer。 昌 然 支持 UpdateServer 线 性 可 扩 
展 的 架构 看 似 “ 比 较 优 雅 ”， 但 是 ， 这 件 事情 并 不 紧急 。 这 是 因为 ，0LTP 类 应 用 对 
性 能 的 需求 是 有 天 人 花 板 的 ( 例如 全 世界 人 口 共 58 亿 ， 即 使 其 中 五 分 之 一 的 人 都 在 某 
一 天 产生 了 一 笔 交 易 ， 这 一 天 的 总 交易 笔 数 也 只 有 16 亿 笔 ) ， 单 UpdateServer 对 于 
0LTP 类 数据 库 业务 的 性 能 是 足够 的 。 


第 10 章 数据 库 功 能 


数据 库 功能 层 构建 在 分 布 式 人 存储 引擎 层 之 上 ， 实 现 完 整 的 天 系数 据 库 功能 。 


对 于 使 用 者 来 说 ，0ceanBase 与 MySQL 数 据 库 并 没有 什么 区 别 ， 可 以 通过 MySsQL 客 户 
端 连 接 0ceanBase， 也 可 以 在 程序 中 通过 JDBC/ODBC 操 作 0ceanBase。0OceanBase 的 
MergeServer 模 块 文 持 MySQL 协 议 ， 能 够 将 其 中 的 SQL 请 求解 析出 来 ， 并 转化 为 
oceanBase 系 统 的 内 部 调用 。 


OceanBase 定 位 为 全 功能 的 关系 数据 库 ， 但 这 并 不 代表 我 们 会 同等 对 待 所 有 的 关系 
数据 库 功 能 。 关 系数 据 库 系统 中 优化 器 是 最 为 复杂 的 ， 这 个 问题 困扰 了 关系 数据 库 
几 十 年 ， 更 不 可 能 是 0ceanBase 的 长 项 。 因 此 ，OceanBase 支 持 的 SQL 语 句 一 般 比较 
简单 ， 绝 大 部 分 为 针对 单 张 表格 的 操作 ， 只 有 很 少 一 部 分 操作 涉及 多 张 表格 。 
OceanBase 内 部 将 事务 划分 为 只 读 事 务 和 读 写 事务 ， 只 读 事 务 执行 过 程 中 不 需要 加 
锁 ， 读 写 事务 最 终 需 要 发 给 UpdateServer 执 行 。 相 比 传统 的 关系 数据 库 ， 


OceanBase 执 行 简单 的 SQL 语 句 要 高 效 得 多 。 


除了 支持 0LTP 业 务 ，O0ceanBase 还 能 够 支持 OLAP 业 务 。0OLAP 业 务 的 查询 请 求 并 友 数 
不 会 太 高 ， 但 每 次 查询 的 数据 量 都 非常 大 。 为 此 ，OceanBase 专 门 设计 了 并 行 计算 
框架 和 列 式 存储 来 处 理 0LAP 业 务 面临 的 大 查询 问题 。 


最 后 ，0ceanBase 还 针对 实际 业务 的 需求 开 有 友 了 很 多 特色 功能 ， 例 如 ， 用 于 淘宝 网 
收藏 夹 的 大 表 左 连接 功能 ， 数 据 自 动 过 期 以 及 批量 删除 功能 。 这 些 功能 在 天 系数 据 
库 中 要 么 不 支持 ， 要 么 效率 很 低 ， 不 能 满足 业务 的 需求 ， 我 们 将 这 些 需求 通用 化 后 
集成 到 0ceanBase 系 统 中 。 


10.1 整体 结构 


数据 库 功 能 层 的 整体 结构 如 图 16-1 所 示 。 
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10-1 数据 库 功 能 层 整体 结构 


用 户 可 以 通过 兼容 MysQL 协 议 的 客户 端 、JDBC/ODBC 等 方式 将 SQL 请 求 友 送 给 某 一 台 
MergeServer,MergeServer 的 MySQL 协 议 模 块 将 解析 出 其 中 的 SQL 语句 ， 并 交 给 Ms - 
SQL 模块 进行 词法 分 析 ( 采用 GNU Flex 实 现 ) 、 语 法 分 析 ( 采用 GNU Bison 实 

现 ) 、 预 处 理 、 并 生成 逻辑 执行 计划 和 物理 执行 计划 。 


如 果 是 只 读 事 务 ，MergeSserver 需 要 首先 定位 请 求 的 数据 所 在 的 ChunkServer， 接 
着 往 相应 的 ChunkSserver 发 送 SQL 子 请 求 ， 每 个 Chunkserver 将 调用 CS- SQL 模块 计 
算 SQL 子 请 求 的 结果 ， 并 将 计算 结果 返回 给 MergeServer。 最 后 ，MergeServer 需 要 
整合 这 些 子 请 求 的 返回 结果 ， 执行 结果 合并 、 联 表 、 子 查询 等 操作 ， 得 到 最 终结 果 
并 返回 给 客户 端 。 


如 果 是 读 写 事务 ，MergeServer 需 要 首先 从 ChunkSserver 中 读 取 需要 的 基线 数据 ， 
接着 将 物理 执行 计划 以 及 基线 数据 一 起 发 送 给 UpdateSserver,UpdateServer 将 调用 
UPS-SQL 模 块 完 成 最 终 的 写 事务 。 这 几 个 模块 功能 如 下 所 示 : 


eCS-SQL : 实现 针对 单个 子 表 的 SQL 查询 ， 包 括 表格 扫描 (table scan ) 、 投 影 
(projection), 、 过 滤 (filter), 、 排 序 (order by ) 、 分 组 ( group by ) 、 分 
页 ( 1imit ) ， 支 持 表 达 式 计算 、 聚 集 钞 数 ( count、sum、max、min 等 ) 。 执 行 表 
格 扫 摘 时 ， 需 要 从 UpdateSserver 读 取 修 改 增 量 ， 与 本 地 的 基 续 数据 合并 。 


eUPS-SQL : 实现 写 事务 ， 支 持 的 功能 包括 多 版 本 并 友 控 制 、 操 作 日 志 多 线程 并 友 回 
放 等 。 


eMS-SQL : SQL 语句 解析 ， 包 括 词 法 分 析 、 语 法 分 析 、 预 处 理 、 生 成 执行 计划 ， 按 照 
子 表 泄 围 合并 多 个 Chunkserver 返 回 的 部 分 结果 ， 实 现 针 对 多 个 表格 的 物理 操作 
F, OHAR (Join) ， 子 查询 ( subquery ) 等 。 


10.2 只 读 事务 


只 读 事务 ( SELECT 语句 ) ， 经 过 词法 分 析 、 语 法 分 析 ， 预 处 理 后 ， 转 化 为 逻辑 查询 
计划 和 物理 查询 计划 。 以 SQL 语句 select c1 ，c2 from t1 where id=1 group 
by c1 order by c2 为 例 ，Mergeserver 收 到 该 语句 后 将 调用 obsq1 类 的 静态 方法 


direct execute ,执行 步骤 如 下 : 
1 ) 调用 flex、bison 解 析 SQL 语 句 生 成 一 个 语法 树 。 


2 ) 解析 语法 树 ， 生 成 逻辑 执行 计划 0bselectstmt。0Obselectstmt 结 构 中 记录 了 
SQL 语句 扫 摘 的 表格 名 (t1) ， 投 影 列 ( c1 ，c2 ) ， 过 滤 条 件 ( id=1 ) ， 分 组 列 
( c1) 以 及 排序 列 (c2). 


3 ) 根据 逻辑 执行 计划 生成 物理 执行 计划 。obselectstmt 只 是 表达 了 一 种 意图 ， 但 
并 不 知道 实际 如 何 执行 ，0bTransformer 类 的 generate physical plan 将 
0bSselectstmt 转 化 为 物理 执行 计划 。 


逻辑 查询 计划 的 改进 以 及 物理 查询 计划 的 选择 ， 即 查询 优化 器 ， 是 关系 数据 库 最 难 
的 部 分 ，0ceanBase 目 前 在 这 一 部 分 的 工作 不 多 。 因 此 ， 本 节 不 会 涉及 太 多 关于 如 
何 生 成 物理 查询 计划 的 内 容 ， 下 面 仪 以 两 个 例子 说 明 0ceanBase 的 物理 查询 计划 。 


例 16-1 假设 有 一 个 单 表 SsQ&L 语 句 如 图 16-2 所 示 。 


Limit(offset-0,count-20) 


Select cl, sumí(c2) 
from t1 

where c3-10 

group by c1 

having sum(c2) »- 10 
order by c1 


limit 0 20 Filter(cond-(sum(c2)»-10)) 


HashGroupBy (groupby-(c1l], 


aggr-(sum(íc2) }) 





10-2 单 表 物理 查询 计划 示例 
单 表 SQL 语句 执行 过 程 如 下 : 


1) 调用 Tablescan 操 作 符 ， 读 取 子 表 t1 中 的 数据 ， 该 操作 符 还 将 执行 投影 
( Project ) 和 过 滤 ( Filter) ， 返 回 的 结果 只 包含 c3=16 的 数据 行 ， 且 每 行 只 包 


含 c1、c2、c3 三 列 。 


2 ) 调用 HashGroupBy 操 作答 ( 假设 采用 基于 哈 希 的 分 组 算法 ) ， 按 照 c1 对 数据 分 
组 ， 同 时 计算 每 个 分 组 内 c2 列 的 总 和 。 


3 ) 调用 Filter 操 作 符 ， 过 滤 分 组 后 生成 的 结果 ， 只 返回 上 一 层 sum ( c2) > =16 的 


/一 


1T. 


4 ) 调用 Sort 操 作 符 将 结果 按照 cl 排序。 


5) 调用 Project 操 作 符 ， 只 返回 c1 和 sum ( c2 ) 这 两 列 数据 。 
6 ) 调用 Limit 操 作 符 执行 分 页 操作 ， 只 返回 前 26 条 数据 。 


例 16-2 假设 有 一 个 需要 联 表 的 SQL 语句 如 图 16- 3 所 示 。 


Limit (offset=0, count=20) 


Project (col={t1.c1l,sum(t2,c2)}) 


tl.cl, sum(t2.c3) Sort (col={t1.c1}) 


tl1.c2zt2.c2 


MESA DEP Filter(cond-[sum(t2.c3)5-10]) 
group by t1.c1 
having sumí(t2.c3) > 
order by t1.c1 HashGroupBy (groupby-[t1.c1]), 
à aggr-[sum(t2.c2)] 


limit O, 20 





MergeJoin(cond-([t1.c2-t2.c2]) 


Sort (col-(t1.c2]) 


TableScan(table-tl1,col-(cl, TableScan(table-t2,col- 








c2,c3), filter-(c3-10)) (c1,c2,c3)) 


10-3 多 表 物 理 查询 计划 示例 
多 表 SQL 语 句 执行 过 程 如 下 : 


1) 调用 Tablescan 分 别 读 取 t1 和 t2 的 数据 。 对 于 t1， 使 用 条 件 c3=16 对 结果 进行 过 
滤 ，t1 和 t2 都 只 需要 返回 c1 ，c2 ，c3 这 三 列 数据 。 


2 ) 假设 采用 基于 排序 的 表 连 接 算 法 ，t1 和 t2 分 别 按照 +t1.c2 和 t2.c2 排 序 后 ， 调 用 


Merge Join 运 算 符 ， 以 t1.c2=t2.c2 为 条 件 执行 等 值 连接 。 


3 ) 调用 HashGroupBy 运 算 符 ( 假设 采用 基于 哈 希 的 分 组 算法 ) ， 按 照 t1.c1 对 数据 
分 组 ， 同 时 计算 每 个 分 组 内 t2.c3 列 的 总 和 。 


4 ) 调用 Filter 运 算 待 ,过 滤 分 组 后 的 生成 的 结果 ， 只 返回 上 一 层 sum ( t2.c3 ) > 


-108917. 

5 ) 调用 Sort 操 作 符 将 结果 按照 t1. cl 排序 。 

6) 调用 Project 操 作 符 ， 只 返回 t1 .cli 和 sum ( t2.c3 ) 这 两 列 数据 。 
7 ) 调用 Limit 操 作 符 执行 分 页 操作 ， 只 返回 前 26 条 数据。 

10.2.1 物理 操作 符 接口 


9.4.2 廿 介绍 一 期 分 布 式 仓储 引擎 中 的 运 代 器 接口 为 0bIterator， 通 过 尼 ， 可 以 将 
读 到 的 数据 以 ce11 为 单位 逐个 迭代 出 来 。 然 而 ， 数 据 库 操作 总 是 以 行为 单位 的 , 
此 ， 二 期 实现 数据 库 功 能 层 时 考虑 将 基于 cel11 的 迭代 器 修改 为 基于 行 的 运 代 器 。 


行 迭 代 器 接口 如 下 : 

//0bRow 表 示 一 行 数据 内 容 
class ObRow 

{ 

public: 


// 根 据 表 ID 以 及 列 ID 获 得 指定 cell 


//Qparam[in]table idzkf&ID 
//Qparam[in]column idAlID 
//@param[out]cell 读 到 的 cell 


int get cell(const uint64 t table id,const uint64 t 


column id,ObObj*&cell); 
// 获 取 第 cel1 idx 个 cel1 


int raw get cell(const int64 t cell idx,const ObObj*&cell,uint64 t 


&table id, 

uint64 t&column id); 

// 获 取 本 行 的 列 数 

int64 t get column num()const; 
}; 


一 行 数据 ( ObRow ) 包括 多 个 列 ， 每 个 列 的 内 容 包 括 所 在 的 表 ID ( table id) , 
JID ( column id) 以 及 列 内 容 ( ce11) 。0bRow 提 供 两 种 访 间 方式 : 根据 
table_id 和 column_id 随 机 访问 某 个 列 ， 以 及 根据 列 下 标 ( cell_idx ) 获取 某 个 指 


定 列 。 
物理 运算 符 接 口 如 下 : 


// 物 理 运 算 符 接口 


class ObPhyOperator 


public: 
// 添 加 子 运 算 符 ， 所 有 非 叶子 节操 物理 运算 符 都 需要 调用 该 接口 


virtual int set child(int32 t child idx,ObPhyOperator& 


child operator); 

// 打 开 物 理 运 算 符 。 申 请 资源 ， 打开 子 运算 符 等 

virtual int open()-60; 

// 天 闭 物 理 运 算 符 。 释 放 资 源 ， 关 闭 子 运算 符 等 

virtual int close()-0; 

// 获 得 下 一 行 数 据 内 容 

//@param[out]row 下 一 行 数据 内 容 的 引用 

//@return 返 回 码 ， 包括 成 功 、 和 迭代 过 程 中 出 现 错误 以 及 迭代 完成 
virtual int get next row(const ObRow* &row)-0; 

) 


ObPhyOperator 每 次 获取 一 行 数据 ， 使 用 方法 如 下 : 


符 


ObPhyOperator root operator-root _operator_;// 根 运算 符 
root operator- > open(); 
ObRow*rowzNULL; 


while(OB SUCCESS--root operator-» get next row(row)) 


Output (row) ;// 输 出 本 行 


root operator- > close(); 


为 什么 obPhy0perator 类 中 有 一 个 set_chil1d 接 口 呢 ? 这 是 因为 所 有 的 物理 运算 符 
构成 一 个 树 ， 每 个 物理 运算 的 输出 结果 都 可 以 认为 是 一 个 临时 的 二 维 表 ， 树 中 孩子 





节点 的 输出 总 是 作为 它 的 父亲 节点 的 输入 。 例 16-1 中 ， 叶 子 节点 为 一 个 TableSscan 
类 型 的 物理 运算 符 ( 称 为 table_scan_op ) , BRA D ka73J—" T HashGroupBy2é 





型 的 物理 运算 符 ( 称 为 hnash_group_by_op ) ， 接 下 来 依次 为 Filter 类 型 物理 运算 
符 filter_op,Sort 类 型 物理 运算 符 sort_op, ProJject 类 型 物理 运算 符 
project_op,Limit 类 型 物理 运算 符 1imit_op。 其 中 ，1Limit_op 为 根 运 算 符 。 那 
么 ， 生 成 物理 运算 符 时 将 执行 如 下 语句 : 


limit op- > set child(0 , project op); 


project op->set child(0, sort op); 


sort op-» set child(0 , filter op); 

filter op-» set child(0 , hash group by op); 
hash group by op-»set child(0, table scan op); 
root op-limit op; 


SQL 最 终 执行 时 ， 只 需要 迭代 root_op ( BÜlimit op ) BUBESZb sS SH ISSUES HAAS 
代 出 来 。1imit_op 友 现 前 一 批 数据 迭代 完成 则 驱动 下 层 的 project_op 获 取 下 一 批 
数据 ，proJject_op 友 现 前 一 批 数据 迭代 完成 则 驱动 下 层 的 sort_op 获 取 下 一 批 数 
据 。 以 此 类 推 ， 直 到 最 底层 的 table_scan_op 不 断 地 从 原始 表 t1 中 读 取 数 据 。 


16.2.2 单 表 操作 
单 表 相关 的 物理 运算 符 包括 : 


eTableScan : 扫描 某 个 表格 ，MergeServer 将 扫描 请 求 发 给 请 求 的 各 个 子 表 所 在 的 
ChunkServer， 并 将 ChunkServer 返 回 的 结果 按照 子 表 范围 拼接 起 来 作为 输出 。 如 
果 请 求 涉 及 多 个 子 表 ，TabletScan 可 由 多 台 ChunkServer 并 发 执行 。 


eFilter : 针对 每 行 数据 ， 判断 是 否 满足 过 渡 条 件 。 
eProjection : 对 输入 的 每 一 行 ， 根 据 定义 的 输出 表达 式 ， 计 算 输 出 结果 行 。 


eGroupBy : 把 输入 数据 按照 指定 列 进行 聚集 ， 对 聚集 后 的 每 组 数据 可 以 执行 计数 
(count), 、 求 和 (sum) 、 计 算 最 小 值 (min), 、 计 算 最 大 值 (max). 、 计 算 平 均值 


( avg ) 等 聚集 操作 。 


eSort : 对 输入 数据 进行 整体 排序 ， 如 果 内 存 不 够 ， 需 要 使 用 外 排序 。 
elLimit ( offset,count ) : 返回 行 号 在 [offset,offset+count ) 范围 内 的 行 。 
eDistinct : 消除 某 些 列 相 同 的 重复 行 。 


GroupBy、Distinct 物 理 操作 符 可 以 通过 基于 排序 的 算法 实现 ， 也 可 以 通过 基于 哈 
希 的 算法 实现 ， 人 分别 对 应 HashGroupBy 和 MergeGroupBy， 以 及 HashDistinct 和 
MergeDistinct。 下 面 分 别 讨 论 排序 算法 和 哈 希 算法 。 


1 .排序 算法 


MergeGroupBy、MergeDistinct 以 及 sort 都 需要 使 用 排序 算法 。 通 用 的 < 
key, value > 排序 器 可 以 分 为 两 个 阶段 : 


e 数 据 收集 : 在 数据 收集 阶段 ， 调 用 者 将 key, value > 对 依次 加 入 到 排序 器 。 如 果 
数据 总 量 超过 排序 器 的 内 存 上 限 ， 需 要 首先 将 内 存 中 的 数据 排 好 序 ， 并 存储 到 外 部 
磁盘 中 。 


GARAE : 迭代 第 一 行 数 据 时 ， 内 存 中 可 能 有 一 部 分 未 排序 的 数据 ， 磁 盘 中 也 可 能 
有 几 路 已 经 排 好 序 的 数据 。 因 此 ， 和 首先 将 内 人 存 中 的 数据 排 好 序 。 如 果 数 据 辟 量 不 超 
过 排序 器 内 存 上 限 ， 那 么 将 内 存 中 已 经 排 好 序 的 数据 按 行 迭代 输出 ( 内 排序 ) ; 否 
则 ， 对 内 存 和 磁盘 中 的 部 分 有 序数 据 执 行 多 路 归并 ， 一 边 归 并 一 边 将 结果 迭代 输 
出 。 


2. 哈 希 算 法 


HashGroupBy 以 及 HashDistinct 都 需要 使 用 哈 希 算法 。 假 设 需要 对 < key ,value > 


对 按照 key 分 组 ,那么 首先 使 用 key 计 算 哈 希 值 K， 并 将 这 个 < key, value > 对 写 入 到 
第 kK 个 桶 中 。 不 同 的 key 可 能 对 应 相同 的 哈 希 桶 ， 因 此 ， 还 需要 对 每 个 哈 希 桶 内 的 < 
key, value > 对 排序 ， 这 样 才 能 使 得 key 相 同 的 元 组 能 够 连续 迭代 出 来 。 哈 希 算法 的 
难点 在 于 数据 总 量 超过 内 存 上 限 的 处 理 ， 由 于 篇 幅 有 限 ， 请 自行 思考 。 


10.2.3 多 表 操 作 


多 表 相 关 的 物理 操作 符 主 要 是 Join。 最 为 常见 的 Join 类 型 包括 两 种 : 内 连接 

( Inner Join) 和 元 外 连接 (Left Outer Join )， 而 且 基 本 都 是 等 值 连接 。 如 果 
需要 连接 多 张 表 ， 可 以 先 连接 前 两 张 表 ， 表 将 前 两 张 表 连 接生 成 的 结果 ( 相当 于 一 
张 临时 表 ) 与 第 三 张 表格 连接 ， 以 此 类 推 。 


两 张 表 实现 等 值 连接 方式 主要 分 为 两 类 : 基于 排序 的 算法 ( MergeJoin ) 以 及 基于 
哈 希 的 算法 ( HashJoin ) 。 对 于 MergeJoin， 首先 使 用 sort 运 算 符 分 别 对 输入 表格 
预 处 理 ， 使 得 两 张 输 入 表 都 在 连接 列 上 排 好 序 ， 接 着 按 顺序 迭代 两 张 输 入 表 ， 合 并 
连接 列 相同 的 行 并 输出 ; 对 于 HashJoin， 首 先 根据 连接 列 计算 哈 希 值 K， 并 分 别 将 
两 张 输入 表格 的 数据 写 入 到 第 K 个 桶 中 。 接 着 ， 对 每 个 哈 希 桶 按照 连接 列 排序 。 最 
后 ， 依 次 对 每 个 哈 希 桶 合并 连接 列 相同 的 行 并 输出 。 


子 查 询 分 为 两 种 : 关联 子 查询 和 非 关 联 子 查询 ， 其 中 比较 弟 用 的 是 使 用 IN 子 句 的 非 
天 联 子 查 询 。 举 例如 下 : 


例 16-3 假设 有 两 张 表格 : item ( 商品 表 ， 包 括 商品 号 item_id， 商 品名 
item_name ， 分 类 号 category id, ) , category ( 类 别 表 ， 包 括 分 类 号 
category id ,分 类 名 category_name ) 。 如 果 需 要 查询 分 类 号 出 现在 category 表 
中 商品 ， 可 以 采用 图 16-4 左 边 的 IN 子 查询 ， 而 这 个 子 查 询 将 被 自动 转化 为 图 16-4 右 


边 的 等 值 连接 。 如 果 category 表 中 的 category_id 列 有 重复 ， 表 连接 之 前 还 需要 使 
用 distinct 运 算 符 来 删除 重复 的 记录 。 


select item id, item name 


from item ; TUENE 
select item id, item name 


where category id IN 


from item, category 
where 
select category id 


from category item.category id 





- category.category id 





10-4 IN 子 查 询 转化 为 等 值 连接 


例 16-4 例 16-3 中 ， 如 果 category 表 只 包含 category_id 为 1 ~ 16 的 记录 ， 那么 ， 
可 以 将 IN 子 查询 写成 图 16-5 中 的 常量 表达 式 。 


select item id, item name 
from item 


where category id IN 
(1,2,3,4,5,6,7,7,9,10] 





图 10-5 IN 子 查询 转化 为 常量 表达 式 


转化 为 常量 表达 式 后 ，MergeServer 执 行 SQL 计 算 时 ， 可 以 将 IN 后 面 的 常量 列表 友 送 
给 ChunkServer,ChunkServer 只 返回 category_id 在 常量 列表 中 的 商品 记录 ， 而 不 
是 将 所 有 的 记录 返回 给 MergeServer 过 滤 ， 从 而 减少 二 者 之 间 传 输 的 数据 量 。 


OceanBase 多 表 操 作 做 得 还 很 粗糙 ， 例 如 不 支持 嵌 套 连接 (Nested Loop Join) , 
不 支持 非 等 值 连接 ， 不 支持 查询 优化 等 ， 后 续 将 在 合适 的 时 间 对 这 一 部 分 代码 进行 
重 构 。 


10.2.4 SQL 执行 本 地 化 


MergeServer 包 含 SQL 执行 模块 Ms -SQL,ChunkSserver 也 包含 SQL 执行 模块 CS-SQL , 
那么 ， 如 何 区 分 二 者 的 功能 呢 ”多 表 操 作 由 Mergeserver 执 行 ， 对 于 单 表 操作 ， 
OceanBase 设 计 的 基本 原则 是 尽量 支持 SQL 计算 本 地 化 ， 保 持 数据 节点 与 计算 节点 一 
致 ， 也 残 是 说， 只 要 ChunkSserver 能 够 实现 的 操作 ， 原 则 上 都 应 该 由 它 来 完成 。 


eTableScan : 每 个 CchunkSserver 扫 描 各 自 子 表 范 围 内 的 数据 ， 由 MergeServer 合 并 
Chunkserver 返 回 的 部 分 结果 。 


eFilter : 对 基本 表 的 过 滤 集 成 在 Tablescan 操 作 符 中 ， 由 ChunkServer 完 成 。 对 
分 组 后 的 结果 执行 过 滤 ( Having ) 集成 在 6roupBy 操 作 符 中， 一 般 情况 下 由 
MergeServer 完 成 ; 但 是 ， 如果 能 够 确定 每 个 分 组 的 所 有 数据 行 只 属于 同一 个 子 
表 ， 比如 sQL 请 求 只 涉及 一 个 tablet， 那么 ， 分 组 以 及 分 组 后 的 过 滤 操作 符 可 以 由 


ChunkServer 完 成 。 


eProjection : 对 基本 表 的 投影 集成 在 TableScan 操 作 符 中 ， 由 ChunkServer 完 


成 ， 对 最 终结 果 的 投影 由 MergeServer 完 成 。 


eGroupBy : 如 果 SQL 读 取 的 数据 只 在 一 个 子 表 上 ， 那么 由 该 子 表 所 在 的 
ChunkServer 完 成 分 组 操作 ; 否则 ， 每 台 ChunkServer 各 自 完成 部 分 数据 的 分 组 操 
作 ， 执行 聚合 运算 后 得 到 部 分 结果 ， 再 由 MergeServer 合 并 所 有 ChunkServer 返 回 
的 部 分 结果 ， 对 于 属于 同一 个 分 组 的 数据 再 次 执行 聚合 运算 。 某 些 聚合 运算 需要 做 
特殊 处 理 ， 比 如 avg， 需 要 转化 为 Sum 和 count 操 作 发 送 给 
ChunkServer,MergeServer 合 并 ChunkServer 返 回 的 部 分 结果 后 计算 出 最 终 的 sum 


和 count 值 ， 并 通过 sum/count 得 到 avg 的 最 终结 果 。 


eSort : 如 果 SQL 读 取 的 数据 只 在 一 个 子 表 上 ， 那 么 由 该 子 表 所 在 的 Chunkserver 完 
成 排序 操作 ; 人 否则， 每 台 Chunkserver 各 自 完 成 部 分 数据 的 排序 ， 并 将 排 好 序 的 部 
分 数据 返回 MergeSserver， 有 再 由 MergeServer 执 行 多 路 归并 。 


eLimit : Limit 操 作 一 般 由 Mergeserver 完 成 ， 但 是 ， 如 果 请 求 的 数据 只 在 一 个 子 
表 上 ， 可 以 由 ChunkServer 完 成 ， 这 往往 会 大 大 减少 MergeServer 与 ChunkServer 
之 间 传 输 的 数据 量 。 


eDistinct : Distinct 与 G6roupBy 类 似 。ChunkServer 先 完成 部 分 数据 的 去 重 ， FH 
由 MergeServer 进 行 整体 去 重 。 


410-5 图 16-2 中 的 SQL 语句 为 “select c1, sum(c2)from t1 where c3-10 
group by c1 having sum(c2) > =16 order by c1 limit 6 ，26”。 执 行 步 
又 如 下 : 


1) ChunkServer 调 用 TableScan 操 作 符 ， 读 取 子 表 t1 中 的 数据 ， 该 操作 符 还 将 执行 
投影 (Project ) 和 过 滤 ( Filter )， 返 回 的 结果 只 包含 c3=16 的 数据 行 ， 且 每 行 


只 包含 cl1、c2、c3 三 列 。 


2 ) Chunkserver 调 用 HashGroupBy 操 作 符 ( 假设 采用 基于 哈 希 的 分 组 算法 ) ， 按 照 
c1 对 数据 分 组 ， 同 时 计算 每 个 分 组 内 c2 列 的 总 和 sum ( c2) 。 


3 ) 每 个 CchunkServer 将 分 组 后 的 部 分 结果 返回 MergeServer,MergeServer 将 来 自 
不 同 Chunkserver 的 c1 列 相同 的 行 合 并 在 一 起 ， 再 次 执行 sum 运 算 。 


4 ) MergeServer 调 用 Filter 操 作 符 ， 过 滤 第 3 ) 步 生 成 的 最 终结 果 ， 只 返回 


sum ( c2) > =16 的 行 。 


5 ) MergeServer 调 用 Sort 操 作 符 将 结果 按照 cl 排序 。 
6 ) MergeServer 调 用 Project 操 作 符 ， 只 返回 c1 和 sum ( c2 ) 这 两 列 数 据 。 
7 ) MergeServer 调 用 Limit 操 作 符 执行 分 页 操作 ， 只 返回 前 26 条 数据 。 


当然 ， 如 果 能 够 确定 请 求 的 数据 全 部 属于 同一 个 子 表 ， 那 么 ， 所 有 的 物理 运算 符 都 
可 以 由 ChunkServer 执 行 ，MergeServer 只 需要 将 ChunkServer 计 算得 到 的 结果 转 


发 给 客户 端 。 
10.3 写 事务 


写 事 务 ， 包 括 更 新 (UPDATE ) 、 插 入 (INSERT), 、 删 除 ( DELETE) 、 蔡 换 

( REPLACE， 插 入 或 者 更 新 ， 如 果 行 不 存在 则 插入 新 行 ; 否则 ， 更 新 已 有 行 ) ， 由 
MergeServer 解 析 后 生成 物理 执行 计划 ， 这 个 物理 执行 计划 最 终 将 友 给 
UpdateServer 执 行 。 写 事务 可 能 需要 读 取 基 线 数据 ， 用 于 判断 更 新 或 者 插入 的 数据 
行 是 否 存 在 ， 判断 某 个 条 件 是 否 满 足 ， 等 等 ， 这 些 基 线 数据 也 会 由 MergeServer 传 


给 UpdateServer。 
10.3.1 写 事务 执行 流程 
大 部 分 写 事务 都 是 针对 单行 的 操作 ， 如 果 单 行事 务 不 带 其 他 条 件 : 


eREPLACE : REPLACE 事 务 不 关心 写 入 行 是 否 已 经 存在 ,因此 ，MergeServer 和 直接 将 
修改 操作 发 送 给 UpdateServer 执 行 。 


eINSERT : MergeServer 首 先 读 取 Chunkserver 中 的 基线 数据 ， 并 将 基线 数据 中 行 
是 否 存在 信息 发 送 给 UpdateServer,UpdateServer 接 着 查看 增 量 数 据 中 行 是 否 被 删 


除 或 者 有 新 的 修改 操作 ， 融 合 基 绪 数 据 和 增 量 数据 后 ， 如 果 行 不 仔 企 ， 则 执行 插入 
操作 ; 否则 ， 返回 行 已 存在 错误 。 


eUPDATE : 与 INSERT 事 务 执行 步骤 类 似 ， 不 同 点 在 于 ， 行 已 仓 在 则 执行 更 新 操作 ; 
否则 ， 什 么 也 不 做 。 


eDELETE : 与 UPDATE 事 务 执行 步骤 类 似 。 如 果 行 已 存在 则 执行 删除 操作 ; 否则 ， 什 
么 也 不 做 。 


如 果 单 行 写 事务 市 有 其 他 条 件 : 


eUPDATE : 如 果 UPDATE 事 务 市 有 其 他 条 件 ， 那 么 ，MergeServer 除 了 从 基线 数据 中 
读 取 行 是 否 存 在 ， 还 需要 读 取 用 于 条 件 判断 的 基线 数据 ， 并 传 给 UpdateServer。 
UpdateServer 融 合 基 线 数 据 和 增 量 数据 后 ， 将 会 执行 条 件 判断 ， 如 果 行 存在 且 判 断 
条 件 成 立 则 执行 更 新 操作 。 否 则 ， 返 回 行 已 存在 或 者 条 件 不 成 立 错 误 。 


eDELETE : 与 UPDATE 事 务 执 行 步 骤 类 似 。 


例 16-6 有 一 张 表 格 item (user id,item id,item status,item name) , E 
rH, «user id,item id> 为 联合 主键 。 


MergeServer 首 先 解析 图 16-6 的 SQL 语句 产生 执行 计划 ， 确 定 待 修改 行 的 主键 为 < 
1,2» ， 接 着 ， 请 求 主键 < 1，2 > 所 在 的 ChunkSserver， 获 取 基 线 数 据 中 行 是 否 存 
f£ , 最后， 将 SQL 执 行 计划 和 基线 数据 中 行 是 否 存在 一 起 发 送 给 UpdateServer。 
UpdateServer 融 合 基线 数据 和 增 量 数据 ， 如 果 行 已 存在 且 未 被 删除 ，UPDATE 和 
DELETE 语 人 句 执行 成 功 ，INSERT 语 句 执行 返回 “ 行 已 存在 ”; 如 果 行 不 存在 或 者 最 后 
被 删除 ，INSERT 语 名 执行 成 功 ，UPDATE 和 DELETE 语 句 返 回 “ 行 不 仓 企 ”。 


// 46 1&9 

insert into item 
values(1, 2, O0, "iteml"); 
//| 更 新 语句 


update item 


set item status-1 

where user id-1 
and item id-2; 

// 删除 语句 

delete from item 

where user id-1 
and item id-2; 





10-6 单行 写 事务 ( 不 带 条 件 ) 


图 16-7 中 的 UPDATE 和 和 DELETE 语 句 还 带 有 item_name= “item1” 的 条 件 ， 
MergeServer 除 了 请 求 ChunkServer 获 取 基 线 数 据 中 行 是 否 存 在 ， 还 需要 获取 
item_name 的 内 容 ， 并 将 这 些 信 息 一 起 发 送 给 updateSserver。UpdateSserver 融 合 
基线 数据 和 增 量 数据 ， 判 断 最 终结 果 中 行 是 否 存在 ， 以 及 item_name 的 内 容 是 否 

J "item" ， 只 有 两 个 条 件 同时 成 立 ，UPDATE 和 DELETE 语 句 才能 够 执行 成 功 ; 否 
则 ， 返回“ 行 不 存在 或 者 item_name 列 的 内 容 不 符合 预期 ”。 


// 更 新 语句 

update item 

set item status-1 

where user id-1 
and item id-2 


and item name-"iteml"; 
// tg 


delete from item 


where user id-1 
and item id-2 
and item name-"iteml"; 





10-7 单行 写 事务 ( 市 条 件 ) 


当然 ， 并 不 是 所 有 的 写 事务 都 这 么 简单 。 复 杂 的 写 事务 可 能 需要 修改 多 行 数 据 ， 事 


务 执行 过 程 也 可 能 比较 复杂 。 


例 16-7 有 两 张 表格 item (user id,item id,item status,item name) 以 及 
user (user id,user name), 。 其 中 ，< user id,item id > 为 item 表 格 的 联合 


主键 ，user_id 为 user 表 格 的 主键 。 


图 16-8 的 UPDATE 语 句 可 能 会 更 新 多 行 。MergeServer 首 先 从 ChunkServer 获 取 编 号 
为 1 的 用 尸 包含 的 全 部 item ( 可 能 包含 多 行 ) ， 并 传 给 Updateserver。 接 者 ， 
UpdateServer 融 合 基线 数据 和 增 量 数据 ， 更 新 每 个 存在 且 示 被 删除 的 item 的 

item statusJAl. 


// 更 新 多 行 

update item 

set item status-1 

where user id-1; 

/复杂 条 件 

delete item 

where user id in 
select user id 
from user 


where user name=" KZ" 





10-8 复杂 写 事务 举例 


图 16-8 的 DELETE 语 句 更 加 复杂 ， 执 行 时 需要 首先 获取 user_name 为 “ 张 三 ” 的 用 户 
的 user_id， 考 虑 到 事务 隔离 级 别 ， 这 里 可 能 需要 锁 住 user_name 为 “ 张 三 ”的 数据 
íT (防止 user_name 被 修改 为 其 他 值 ) 甚至 锁 住 整 张 user 表 ( 防止 其 他 行 的 
user_name 修 改 为 “ 张 三 ” 或 者 插入 user_name 为 “ 张 三 ” 的 新 行 ) 。 接 着 ， 获 取 
用 户 名 为 “ 张 三 ” 的 所 有 用 户 的 所 有 item， 最后， 删除 这 些 item。 这 条 语句 执行 的 


难点 在 于 如 何 降 低 锁 粒度 以 及 锁 占 用 时 间 ， 上 有 具体 的 做 法 请 读者 自行 思考 。 
10.3.2 多 版 本 并 友 控 制 


OceanBase 的 MemTable 包 含 两 个 部 分 : 索引 结构 及 行 操作 和 链 。 其 中 ， 这 引 结构 存储 
行头 信息 ， 采 用 9.1.2 节 中 的 内 人 存 B 树 实现 ; 行 操作 链表 中 存储 了 不 同 版 本 的 修改 操 
作 ， 从 而 支持 多 有 版 本 并 发 控制 |。 


oceanBase 支 持 多 线程 并 发 修改 ， 写 操作 拆 分 为 两 个 阶段 


e 预 提交 ( 多 线程 执行 ) : 事务 执行 线程 首先 锁 住 待 更 新 数据 行 ， 接 看， 将 事务 中 针 
对 数据 行 的 操作 追加 到 该 行 的 未 提交 行 操作 链表 中 ， 最 后 ， 往 提交 任务 队列 中 加 入 


一 个 提交 任务 。 


e 提 交 ( 单线 程 执行 ) : 提交 续 程 不 断 地 扫 摘 并 取出 提交 任务 队列 中 的 提交 任务 ， 将 
这 些 任务 的 操作 日 志 退 加 到 日 志 缓 冲 区 中 。 如 果 日 志 缓 冲 区 到 达 一 定 大 小 ， 将 日 志 
缓冲 区 中 的 数据 同步 到 备 机 ， 同 时 写 入 主机 的 磁盘 日 志文 件 。 操 作 日 志 写 成 功 后 ， 
将 未 提交 行 操作 链表 中 的 cel11 操 作 追 加 到 已 提交 行 操作 链表 的 末尾 ， 释 放 锁 并 回复 
客户 端 写 操作 成 功 。 


如 图 16-9 所 示 ，MemTable 行 操作 链表 包含 两 个 部 分 : 已 提交 部 分 和 未 提交 部 分 。 另 
外 ， 每 个 事务 管理 结构 记录 了 当前 事务 正在 操作 的 数据 行 的 行头 ， 每 个 数据 行 的 行 

头 包含 已 提交 和 未 提交 行 操作 链表 的 头 部 指针 。 在 预 提交 阶段 ， 每 个 事务 会 将 cell 

操作 追加 到 未 提交 行 操作 链表 中 ， 并 在 行头 保存 未 提交 行 操作 链表 的 头 部 指针 以 及 

锁 信 息 ， 同 时 ， 将 行头 信息 记录 到 事务 管理 结构 中 ; 在 提交 阶段 ， 根据 事务 管理 结 

构 中 记录 的 行头 信息 找到 未 提交 行 操作 链表 ， 链 接 到 已 提交 行 操作 链表 的 末尾 ， 并 

释放 行头 记录 的 锁 。 


Class ObTransExecutor 


{ 
public: 
// 处 理 预 提 交 任 务 


void handle trans(void*ptask,void*pdata); 
// 处 理 提交 任务 


void handle commit(void*ptask,void*pdata); 


) 
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10-9 MemTable 实 现 MVCC 


ObTransExecutor 是 UpdateServer 读 写 事务 处 理 的 入 口 类 ， 它 主要 包含 两 个 方 


法 : handle trans 以 及 handle_commit。 其 中 , handle trans 处 理 预 提 交 任 务 , 
handle_commit 处 理 提 交 任 务 。handle_ trans 首先 将 写 事 务 预 提交 到 MemTable 
中 ， 接 着 将 写 事务 加 入 到 提交 任务 队列 。 提 交 线 程 不 断 地 从 提交 任务 队列 中 取出 提 
交 任 务 ， 并 调用 handle_commit 进 行 处 理 。 


每 个 写 事务 会 根据 提交 时 的 系统 时 间 生 成 一 个 事务 版 本 ， 读 事务 只 会 读 取 在 它 之 前 
提交 的 写 事务 的 修改 操作 。 


如 图 16-16 所 示 ， 对 主键 为 1 的 商品 有 2 个 写 事 务 ， 事 务 T1 ( 提交 版 本 号 为 2 ) 将 商品 
购买 人 数 修改 为 18686， 事 务 T2 ( 提交 版 本 号 为 4 ) 将 商品 购买 人 数 修改 为 596。 那 么 ， 
事务 T2 预 提交 时 ，T1 已 经 提交 ， 该 商品 的 已 提交 行 操 作 链 包含 一 个 cel1 : < 
update， 购 买 人 数 ，168 > ， 未 提交 操作 链 包含 一 个 cel1 : < update， 购 买 人 数 ， 
56 > 。 事 务 T2 成 功 提交 后 ， 该 商品 的 已 提交 行 操 作 链 将 包含 两 个 cel1 : «update, 
购买 人 数 ， 100 > 以 及 < update， 购 买 人 数 ，58 > ， 未 提交 行 操作 链 为 空 。 对 于 只 


读 事务 : 
eT3 : 事务 版 本 号 为 1 ，T1 和 T2 均 未 提交 ， 该 行 数据 为 空 。 


eT4 : 事务 版 本 号 为 3，T1 已 提交 ，T2 未 提交 ， 读 取 到 < update， 购 买 人 数 100 
> 。 尽 管 T2 在 T4 执 行 过 程 中 将 购买 人 数 修改 为 56，T4 第 二 次 读 取 时 会 过 滤 掉 T2 的 修 
改 操 作 ， 因 而 两 次 读 取 将 得 到 相同 的 结 


eT5 : 事务 版 本 号 为 5 ，T1 和 T2 均 已 提交 ， 读 取 到 < update , WAZI , 100 > 以 及 
< update , 购买 人 数 ，56 > ， 购 买 人 数 最 终 值 为 56。 


cm dl Ww | 有 | wow. 
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1. 锁 机 制 


0ceanBase 锁 定 粒 度 为 行 锁 ， 默 认 情况 下 的 隅 离 级 别 为 读 取 已 提交 ( read 
committed) 。 另 外 ， 读 操作 总 是 读 取 某 个 版 本 的 快照 数据 ， 不 需要 加 锁 。 


e 只 写 事务 ( 修改 单行 ) : 事务 预 提 人 交 时 对 待 修改 的 数据 行 加 写 锁 ， 事 务 提交 时 释放 


e 只 写 事务 ( 修改 多 行 ) : 事务 预 提交 时 对 待 修改 的 多 个 数据 行 加 写 锁 ， 事务 提交 时 
释放 写 锁 。 为 了 保证 一 致 性 ， 采 用 两 阶段 锁 的 方式 实现 ， 即 需要 在 事务 预 提 交 阶 段 
获取 所 有 数据 行 的 写 锁 ， 如 果 获 取 某 行 写 锁 失 败 ， 整 个 事务 执行 失败 。 


e 读 写 事 务 (read committed) : 读 写 事务 中 的 读 操作 读 取 某 个 版 本 的 快照 ， 写 操 
作 的 加 钠 方 式 与 只 写 事务 相同 。 


为 了 保证 系统 并 发 性 能 ，O0ceanBase 和 暂时 不 支持 更 高 的 隔离 级 别 。 另 外 ， 为 了 支持 
对 一 致 性 要 求 很 高 的 业务 ，0ceanBase 人 允许 用 户 显 式 锁 住 某 个 数据 行 。 例 如 ， 有 一 
张 账 务 表 account ( account id,balance) ， 其 中 account_id 为 主键 。 假 设 需要 
从 A 账 户 ( account, id-1) 向 B 账 户 ( account. id-2) 转账 166 元 ， 那 么 ，A 账 户 需 
要 减少 168 元 ，B 账 尸 需要 增加 166 元 ， 整 个 转账 操作 是 一 个 事务 ， 执 行 过 程 中 需要 


防止 A 账户 和 8 账户 被 其 他 事务 并 友 修 改 。 


如 图 16-11 所 示 ，OceanBase 提 供 了 "select......for update" 语 句 用 于 显示 锁 住 A 账 
户 或 者 B 账 户 ， 防 止 转账 过 程 中 被 其 他 事务 并 上 友 修 改 。 


select balance as balance a 
from account 


where account id-1 
for update; // 锁 住 和 账户 


elect balance as balance b 
from account 
where account id=2 
for update; // 锁 住 BB 账户 
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事务 执行 过 程 中 可 能 会 发 生死 锁 ， 例 如 事务 T1 持 有 账户 A 的 写 锁 并 尝试 获取 账户 8 的 
写 锁 ， 事 务 T2 持 有 账 尸 B 的 写 锁 并 等 试 获取 账户 A 的 写 锁 ， 这 两 个 事务 因为 循环 等 待 
而 出 现 死 锁 。0ceanBase 目 前 处 理 死 锁 的 方式 很 简单 ， 事 务 执行 过 程 中 如 果 超 过 一 
定时 间 无 法 获取 写 锁 ， 则 目 动 回 滚 。 


2 .多 续 程 并 上 友 日 志 回 放 


9.2.3 节 介绍 了 主 备 同步 原理 ， 引 入 多 版 本 并 发 控制 机 制 后 ,UpdateServer 备 机 支 
持 多 线程 并 发 回放 日 志 功 能 。 如 图 16-12 所 示 ， 有 一 个 日 志 分 发 线程 每 次 从 日 志 源 读 
取 一 批 日 志 ， 拆 分 为 单独 的 日 志 回 放任 务 交 给 不 同 的 日 志 回 放 线 程 处 理 。 一 批 日 志 
回放 完成 时 ， 日 志 提 交 线 程 会 将 对 应 的 事务 提交 到 内 存 表 并 将 日 志 内 容 持久 化 到 日 
志文 件 。 


备 UpdateServer 


XE UpdateServer ea 了 * Q O 日 志 组 冲 区 


推送 操作 日 志 


日 志 分 发 线程 


拉 取 操作 日 志 
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Class ObLogReplayWorker 


public: 
// 提 交 一 批 待 回放 的 操作 日 志 
//@param[out]task_id 最 后 一 条 操作 日 志 的 编号 
//@param[in]buf 日 志 绥 冲 区 
//@param[in]len 日 志 缓 冲 区 的 大 小 


//@param[in]replay_type 日 志 回 放 类 型 ， 包括 RT_LOCAL ( 回放 本 地 日 志 ) 和 


RT. APPLY ( 回放 通过 网 络 接收 到 的 日 志 ) 


int submit batch(int64 t&task id,const char*buf,int64 t len,const 


ReplayType replay type); 
public: 
// 回 放 一 条 操作 日 志 


int handle apply(ObLogTask*task); 
}; 


在 9.3.3 节 中 提 到 ， 备 Updateserver 有 专门 的 日 志 回 放 线 程 不 断 地 调用 ObupsLog- 
Mgr 中 的 rep1ay_1og 函 数 获 取 并 回放 操作 日 志 。Updateserver 文 持 多 线程 并 发 写 事 
务 后 ，replay_1log 国 数 实现 成 调用 ObLogReplayWorker 中 的 submit batch , 将 一 
批 待 回放 的 操作 日 志 加 入 到 回放 任务 队列 中 。 多 个 日 志 回 放 线 程 会 取出 回放 任务 并 
不 断 地 调用 handle_apply 回 放 操 作 日 志 ， 即 首先 将 操作 日 志 预 提交 到 MemTable 

中 ， 接 着 加 入 到 提交 任务 队列 。 另 外 ， 还 有 一 个 单独 的 提交 线程 会 从 提交 任务 队列 
中 一 次 取出 一 批 任务 ， 提 交 到 MemTable 并 持久 化 到 日 志文 件 中 。 


10.4 OLAP 业 务 支持 


OLAP 业 务 的 特点 是 SQL 每 次 执行 涉及 的 数据 量 很 大 ， 需 要 一 次 性 分 析 几 百 万 行 甚至 
几 和 干 万 行 的 数据 。 另 外 ，SQL 执 行 时 往往 只 读 取 每 行 的 部 分 列 而 不 是 整 行 数据 。 


为 了 支持 OLAP 计 算 ，0ceanBase 实 现 了 两 个 主要 功能 : 并 发 查询 以 及 列 式 和 存储 。 并 
行 查 询 功 能 允许 将 SQL 请 求 拆 分 为 多 个 子 请 求 同 时 发 送 给 多 台 机 器 并 发 执行 ， 列 式 存 


储 能 够 提高 压缩 率 ， 大 大 降低 SQL 执行 时 读 取 的 数据 量 。 本 节 首 先 介 绍 并 发 查询 功 
能 ， 接 着 介绍 oceanBase 的 列 式 人 存储 引擎 。 


10.4.1 并 发 查询 


如 图 16-13 所 示 ，MergeServer 将 大 请 求 拆 分 为 多 个 子 请 求 ， 同 时 发 往 每 个 子 请 求 所 
在 的 ChunkServer 并 发 执行 ， 每 个 chunkSserver 执 行 子 请 求 并 将 部 分 结果 返回 给 
MergeServer。MergeServer 合 并 ChunkServer 返 回 的 部 分 结果 并 将 最 终结 果 返 回 


£528 Fi. 
MergeServer 并 友 查 询 执 行 步骤 如 下 : 


1) MergeServer 解 析 SQL 语 句 ， 根 据 本 地 缓存 的 子 表 位 置信 息 获 取 需 要 请 求 的 


ChunkServer, 


£d HÀ A Ji: 
Zhu i 


ChunkServer ChunkServer 


广 请求 执行 FRI 
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2 ) 如 果 请 求 只 涉及 一 个 子 表 ， 将 请 求 友 和 送 给 该 子 表 所 在 的 ChunkServer 执 行 ; 如 果 
请 求 涉及 多 个 子 表 ， 将 请 求 按照 子 表 拆 分 为 多 个 子 请 求 ， 每 个 子 请 求 对 应 一 个 子 


表 ， 并 上 友 送 给 该 子 表 所 在 的 Chunkserver 并 上 执行 。MergeServer 等 待 每 个 子 请 求 
的 返回 结果 。 


3 ) Chunkserver 执 行 子 请 求 ， 计 算 子 请 求 的 部 分 结果 。SQL 执 行 苯 从 16.2.4 节 提 到 
的 本 地 化 原则 ， 即 能 让 chunkserver 执 行 的 尽量 让 Chunkserver 执 行 ， 包 括 


Filter、ProJject、 子 请 求 部 分 结果 的 GroupBy、0OrderBy、 聚 合 运算 等 。 


4) 每 个 子 请 求 执行 完成 后 ，Chunkserver 将 执行 结果 回复 MergeServer,Merge- 
server 首 先 将 每 个 子 请 求 的 执行 结果 保存 起 来 。 如 果 某 个 子 请 求 执行 失败 ， 
MergeSserver 会 将 该 子 请 求 友 往 子 表 其 他 副本 所 在 的 Chunkserver 执 行 。 


5 ) 等 到 所 有 的 子 请 求 执行 完成 后 ，MergeServer 会 对 全 部 数据 排序 、 分 组 、 聚 合 
将 最 终结 果 返 回 给 客户 。0ceanBase 还 支持 批量 读 取 ( multiget ) 操作 一 次 性 读 取 
多 行 数 据 ， 且 读 取 的 数据 可 能 在 不 同 的 Chunkserver 上 。 对 于 这 样 的 操作 , 
MergeServer 会 按照 chunkserver 拆 分 子 请 求 ， 每 个 子 请 求 对 应 一 个 
ChunkSserver。 假 设 客户 端 请 求 5 行 数据 ， 其 中 第 1、3、5 行 在 ChunkServer AE, 
第 >、4 行 在 ChunkServer B 上 。 那 么 ， 该 请求 将 被 拆 分 为 (1、3、5 ) 和 (2、4) 
两 个 子 请 求 ， 分 别 友 往 ChunkSserver A 和 0B。 


Class ObMsSqlRequest 


public: 
// 唤 醒 正 在 等 待 的 工作 线程 


int signal(ObMsSqlRpcEvent&event); 


// 等 待 某 个 子 请 求 返回 
int wait single event(int64 t&timeout); 
// 处 理 某 个 子 请 求 的 返回 结果 


virtual int process result(const int64 t 


timeout,ObMsSqlRpcEvent*event,bool&finish)-0; 


is 


ObMsSqlRequest 类 用 于 实现 并 发 查询 ， 相 应 地 ，ObMsSqlScanRequest 以 及 ObMs- 
SqlGetRequest 类 分 别 用 于 实现 并 发 扫 摘 和 并 友 批 量 读 取 。MergeServer 将 大 请 求 
拆 分 为 多 个 子 请 求 ， 每 个 子 请 求 对 应 一 个 子 请 求 事件 ( ObMsSqlRpcEvent) 。 工 作 
线程 将 子 请 求 友 给 相应 的 Chunkserver 后 开始 等 待 ( 调用 wait_single_event 方 
ik) ，Chunkserver 执 行 完 子 请 求 后 应 答 MergeServer。MergeServer 收 到 应 答 包 
后 回调 signal 逆 数 ， 唤 醒 工 作 线程 ， 工 作 线程 接着 调用 process_result 进 行 处 
理 。ObMsSqlSscanRequest 和 0bMsSql-GetRequest 实 现 了 process_result 接 口 ， 
将 每 个 子 请 求 返回 的 部 分 结果 保存 到 结果 合并 器 merge_operator_ 中 。 如 果 所 有 的 
子 请 求全 部 执行 完成 ，process_result 销 数 返 回 的 finish 变 量 将 置 为 true， 这 
时 ，merge_operator_ 中 便 保 仓 了 并 发 查询 的 最 终结 果 ，。 


细心 的 读者 可 能 会 发 现 ，0ceanBase 这 种 查询 模式 虽然 解决 了 绝 大 部 分 大 查询 请 求 
的 延 时 间 题 ， 但 是 ， 如 果 坦 询 的 返回 结果 特别 大 ，Mergeserver 将 成 为 性 能 瓶颈 。 
因此 ， 新 版 的 0ceanBase 系 统 将 对 OLAP 查 询 执 行 逻辑 进行 升级 ， 使 其 能 够 支持 数据 
量 更 大 且 更 加 复杂 的 SQL 查询 。 


10.4.2 列 式 存储 


列 式 存储 主要 的 目的 有 两 个 : 1 ) 大 部 分 0LAP 查 询 只 需要 读 取 部 分 列 而 不 是 全 部 列 数 
据 ， 列 式 存储 可 以 避免 读 取 无 用 数据 ; 2 ) 将 同一 列 的 数据 在 物理 上 存放 在 一 起 ,能 
够 极 大 地 提高 数据 压缩 率 。 


列 组 ( Column Group ) 
OceanBase 通 过 列 组 支持 行列 混合 存储 ， 每 个 列 组 存储 多 个 经 常 一 起 访问 的 列 。 


如 图 16-14 所 示 ，OceanBase SSTable 首 先 按照 列 组 和 存储， 每 个 列 组 内 部 再 按 行 存 
储 。 分 为 几 种 情 ; 


a Data Block 0 
Data Block 1 
Data Block 2 


Column Group 0 á Data Block 3 
Table 0 


Column Group 2 " Data Block 5 


Data Block 6 
Data Block 7 
Data Block 8 


Column Group 1 $ Data Block 4 
Table 1 





10-14 0ceanBase 列 组 设计 


e 所 有 列 属于 同一 个 列 组 。 数 据 在 SsSTable 中 按 行 存储 ，O0LTP 应 用 往往 配置 为 这 种 方 
Iu 


e 每 列 对 应 一 个 列 组 。 数 据 在 SsSTable 中 按 列 存 储 ， 这 种 方式 在 实际 应 用 中 比较 少 
见 。 


e 每 个 列 组 对 应 一 行 数据 的 部 分 列 。 数 据 在 SSTab1le 中 按 行列 混合 存储 ，0OLAP 应 用 往 
往 配 置 为 这 种 方式 。 


OceanBase 还 允许 一 个 列 属 于 多 个 列 组 ， 通 过 元 余人 存储 这 些 列 ， 能 够 提高 访问 性 
能 。 例 如 ， 某 表格 轧 共 包含 5 列 ， 用 户 经 党 一 起 访问 (1,3,5) 或 者 (1,2,3， 
4 ) 列 。 如 果 将 (1,，3，,5 ) 81(1,2,3, 4) 存储 到 两 个 列 组 中 ， 那么 ， 大 部 分 访 
问 只 需要 读 取 一 个 列 组 ,避免 了 多 个 列 组 的 合并 操作 。 


列 式 存 储 提高 了 数据 压缩 比 ， 然而， 实践 过 程 中 我 们 发 现 ， 由 于 OceanBase 最 初 的 
几 个 版 本 内 存 操作 实现 得 不 够 精细 ， 例 如 数据 结构 设计 不 合理 ， 数据 在 内 存 中 膨胀 
很 多 倍 ， 导 致 大 查询 的 性 能 瓶颈 集中 在 CPU， 列 式 存 储 的 优势 完全 没有 发 挥 出 来 。 这 
束 告 诉 我 们 ， 列 式 存 储 的 前 提 是 设计 好 内 存 数据 结构 ， 把 cPU 操 作 优 化 好 ， 否则 ,后 
续 的 工作 都 是 无 用 功 。 为 了 更 好 地 支持 OLAP 应 用 ， 新 版 的 0ceanBase 将 重新 设计 列 
式 存 储 3 引擎。 


10.5 特色 功能 


虽然 oceanBase 是 一 个 通用 的 分 布 式 关 系数 据 库 ， 然而， 在 阿里 巴巴 集团 落地 过 程 
中 ， 为 了 满足 业务 的 需求 ， 也 实现 了 一 些 特色 功能 。 这 些 功能 在 互联 网 应 用 中 很 党 
见 ， 然 而 ， 传 统 的 天 系数 据 库 往 往 实现 得 比较 低 效 。 本 节 介 绍 其 中 两 个 具有 代表 性 
的 功能 ， 分 别 为 大 表 左 连接 以 及 数据 过 期 与 批量 删除 。 


10.5.1 大 表 左 连接 


大 表 左 连接 需求 来 源 于 淘宝 收藏 夹 业 务 。 人 简单 来 讲 ， 收 藏 夹 业务 包含 两 张 表 格 : 收 
藏 表 collect_info 以 及 商品 表 collect_item，, 其 中 ，collect_info 表 人 存储 了 用 户 
的 收藏 信息 ， 比 如 收藏 时 间 、 标 签 等 ，collect_item 存 储 了 用 户 收藏 的 商品 或 者 店 
铺 的 信息 ， 包 括 价格 、 人 和 气 等 。collect_info 的 数据 条 目 达到 16efZ 条 , 
collect_item 的 数据 条 目 接 近 18 亿 条 ， 每 个 用 户 平均 收藏 了 56 ~ 166 个 商品 或 者 店 
铺 。 用 户 可 以 按照 收藏 时 间 浏 览 收藏 项 ， 也 可 以 对 收藏 项 按照 价格 、 人 和 气 排 序 。 


自然 想到 的 做 法 是 直接 采用 天 系数 据 库 多 表 连 接 操作 实现 ， 即 根据 co1lect_info 中 
存储 的 商品 编号 (item_id) ， 实 时 地 从 商品 表 读 取 商 品 的 价格 、 人 气 等 信息 。 然 
而 ， 商 品 表 数据 量 太 大 ， 需 要 分 库 分 表 后 分 布 到 多 台数 据 库 服务 器 ， 即 使 是 同一 个 
用 尸 收 藏 的 商品 也 会 被 打 散 到 多 台 服 务 器 。 某 些 用 尸 收 藏 了 几 干 个 商品 或 者 店铺 ， 
如 果 需 要 从 很 多 台 服 务 器 读 取 几 干 条 数据 ， 整 体 延 时 是 不 可 接受 的 ， 系 统 的 并 友 能 
力也 将 受 限 。 


另外 一 种 常见 的 做 法 是 做 宛 余 ， 即 在 collect_info 表 中 宛 余 商品 的 价格 、 人 气 等 信 
息 ， 读 取 时 就 不 需要 读 取 collect_item 表 了 。 然 而 ， 热 门 商品 可 能 被 数 十 万 个 用 户 
收藏 ,每 次 价格 、 人 气 友 生变 化 时 都 需要 修改 数 十 万 个 用 尸 的 收藏 条 目 。 显 然 ， 这 
是 不 可 接受 的 。 


这 个 问题 本 质 上 是 一 个 大 表 左 连接 (Left Join) 的 问题 ， 连 接 列 为 jtem_id， 即 右 
表 ( 商品 表 ) 的 主键 。 对 于 这 个 问题 ，0ceanBase 的 做 法 是 在 collect_info 的 基线 
数据 中 见 余 collect_item 信 息 ， 修 改 增 量 中 将 collect_info 和 collect _item 两 张 
表格 分 开 存储 ， 商 品 价格 、 人 气 变化 信息 只 需要 记录 在 Updateserver 的 修改 增 量 
中 ， 读 取 操 作 步 又 如 下 : 


1) 从 Chunkserver 读 取 collect_info 表 格 的 基线 数据 (TU f collect itemfíz 


kB). 


TUS 


2) 从 UpdateServer 读 取 collect_info 表 格 的 修改 增 量 ， 并 融合 到 第 1 ) 步 的 结 
中 。 


3 ) 从 Updateserver 读 取 co1lect_item 表 格 中 每 个 收藏 商品 的 修改 增 量 ， 并 融合 到 
第 2 ) 步 的 结果 中 。 


4 ) 对 第 3 ) 步 生 成 的 结果 执行 排序 ( 按照 人 气 、 价 格 等 ) ， 分 页 等 操作 并 返回 给 客 
户 端 。 

OceanBase 的 实现 方式 得 益 于 每 天 业务 低 峰 期 进行 的 每 日 合并 操作 。 每 日 合并 时 , 
ChunkServer 会 将 UpdateServer 上 collect_info 和 和 collect_item 表 格 中 的 修改 
增 量 融 合 到 collect_info 表 格 的 基线 数据 中 ， 生 成 新 的 基线 数据 。 因 此 ， 
collect_info 和 和 collect_item 的 数据 量 不 至 于 大 大 ， 从 而 能 够 存放 到 单 台 机 器 的 
内 存 中 提供 高 效 查 询 服务 。 


10.5.2 数据 过 期 与 批量 删除 


很 多 业务 只 需要 存储 一 段 时 | 间 ， 比 如 三 个 月 或 者 半年 的 数据 ， 更 早 之 前 的 数据 可 以 
被 丢弃 或 者 转移 到 历史 库 从 而 节省 存储 成 本 。0ceanBase 支 持 数 据 自 动 过 期 功能 。 


0ceanBase 线 上 每 个 表格 都 包含 创建 时 间 ( gmt_create ) 和 修改 时 间 

(gmt modified) 列 。 使 用 者 可 以 设置 自动 过 期 规则 ， 比 如 只 保留 创建 时 间或 修改 
时 间 不 晚 于 某 个 时 间 点 的 数据 行 ， 读 取 操 作 会 根据 规则 过 滤 这 些 失 效 的 数据 行 ， 
日 合并 时 这 些 数据 行 会 被 物理 删除 。 


批量 删除 需求 来 源 于 0LAP 业 务 。 这 些 业务 往往 每 天 导入 一 批 数据 ， 由 于 业务 逻辑 复 


杂 ， 上 游 系统 很 可 能 出 错 ， 导 致 某 一 天 导入 的 数据 出 现 问题 ， 需 要 将 这 部 分 出 错 的 
数据 删除 掉 。 由 于 导入 的 数据 量 很 大 ， 一 条 一 条 删除 其 中 的 每 行 数据 是 不 现实 的 。 
因此 ，0ceanBase 实 现 了 批量 删除 功能 ， 具 体 做 法 和 数据 自动 过 期 功能 类 似 ， 使 用 
者 可 以 增加 一 个 删除 规则 ， 比 如 删除 创建 时 间 在 某 个 时 间 段 的 数据 行 ， 以 后 所 有 的 
读 操 作 都 会 自动 过 滤 这 些 出 错 的 数据 行 ， 每 日 合并 时 这 些 出 错 的 数据 行 会 被 物理 删 
BR. 


10.5.1 大 表 左 连接 


大 表 左 连接 需求 来 源 于 淘宝 收藏 夹 业务 。 人 简单 来 讲 ， 收 藏 夹 业务 包含 两 张 表格 : 收 
藏 表 collect_info 以 及 商品 表 collect_item，, 其 中 ，collect_info 表 人 存储 了 用 户 
的 收藏 信息 ， 比 如 收藏 时 间 、 标 签 等 ，collect_item 存 储 了 用 户 收 藏 的 商品 或 者 店 
铺 的 信息 ， 包 括 价格 、 人 气 等 。collect_info 的 数据 条 目 达 到 166 亿 条 ， 
collect_item 的 数据 条 目 接 近 16 亿 条 ， 每 个 用 户 平均 收藏 了 56 ~ 166 个 商品 或 者 店 
铺 。 用 户 可 以 按照 收藏 时 间 浏 览 收 藏 项 ， 也 可 以 对 收藏 项 按照 价格 、 人 和 气 排 序 。 


自然 想到 的 做 法 是 直接 采用 天 系数 据 库 多 表 连 接 操作 实现 ， 即 根据 co1lect_info 中 
存储 的 商品 编号 (item_id) ， 实 时 地 从 商品 表 读 取 商 品 的 价格 、 人 气 等 信息 。 然 
而 ， 商 品 表 数据 量 太 大 ， 需 要 分 库 分 表 后 分 布 到 多 台数 据 库 服务 器 ， 即 使 是 同一 个 
用 尸 收 藏 的 商品 也 会 被 打 散 到 多 台 服 务 器 。 某 些 用 尸 收 藏 了 几 干 个 商品 或 者 店铺 ， 
如 果 需 要 从 很 多 台 服 务 器 读 取 几 干 条 数据 ， 整 体 延 时 是 不 可 接受 的 ， 系 统 的 并 友 能 
力也 将 受 限 。 


另外 一 种 常见 的 做 法 是 做 元 余 ， 即 在 collect_info 表 中 宛 余 商品 的 价格 、 人 气 等 信 
息 ， 读 取 时 就 不 需要 读 取 collect_item 表 了 。 然 而 ， 热 门 商品 可 能 被 数 十 万 个 用 户 
收藏 ,每 次 价格 、 人 气 友 生变 化 时 都 需要 修改 数 十 万 个 用 尸 的 收藏 条 目 。 显 然 ， 这 


是 不 可 接受 的 。 


这 个 问题 本 质 上 是 一 个 大 表 左 连接 (Left Join) 的 问题 ， 连 接 列 为 jtem_id， 即 右 
表 ( 商品 表 ) 的 主键 。 对 于 这 个 问题 ，OceanBase 的 做 法 是 在 collect_info 的 基线 
数据 中 见 余 collect_item 信 息 ， 修 改 增 量 中 将 collect_info 和 collect item 两 张 
表格 分 开 存储 ， 商 品 价格 、 人 气 变化 信息 只 需要 记录 在 Updateserver 的 修改 增 晶 
中 ， 读 取 操 作 步 又 如 下 : 


1 ) 从 ChunkServer 读 取 collect_info 表 格 的 基线 数据 (TUR f collect itemfíz 


E) o 


2) 从 Updateserver 读 取 collect_info 表 格 的 修改 增 量 ， 并 融合 到 第 1 ) 步 的 结 
中 。 


3 ) 从 Updateserver 读 取 collect_item 表 格 中 每 个 收藏 商品 的 修改 增 量 ， 并 融合 到 
第 2 ) 步 的 结果 中 。 


4 ) 对 第 3 ) 步 生 成 的 结果 执行 排序 ( 按照 人 气 、 价 格 等 ) ， 分 页 等 操作 并 返回 给 客 
户 端 。 

OceanBase 的 实现 方式 得 益 于 每 天 业务 低 峰 期 进行 的 每 日 合并 操作 。 每 日 合并 时 , 
ChunkServer 会 将 UpdateServer 上 collect_info 和 和 collect_item 表 格 中 的 修改 
增 量 融 合 到 collect_info 表 格 的 基线 数据 中 ， 生 成 新 的 基线 数据 。 因 此 ， 
collect_info 和 collect_item 的 数据 量 不 至 于 大 大 ， 从 而 能 够 存放 到 单 台 机 器 的 
内 存 中 提供 高 效 查 询 服务 。 


10.5.2 数据 过 期 与 批量 删除 


很 多 业务 只 需要 存储 一 段 时 | 间 ， 比 如 三 个 月 或 者 半年 的 数据 ， 更 早 之 前 的 数据 可 以 
被 丢弃 或 者 转移 到 历史 库 从 而 节省 存储 成 本 。0ceanBase 支 持 数 据 自 动 过 期 功能 。 


OceanBase 线 上 每 个 表格 都 包含 创建 时 间 ( gmt_create ) 和 修改 时 间 

( gmt_modified ) 列 。 使 用 者 可 以 设置 自动 过 期 规则 ， 比 如 只 保留 创建 时 间或 修改 
时 间 不 晚 于 某 个 时 间 点 的 数据 行 ， 读 取 操 作 会 根据 规则 过 滤 这 些 失效 的 数据 行 ， 
日 合并 时 这 些 数据 行 会 被 物理 删除 。 


批量 删除 需求 来 源 于 OLAP 业 务 。 这 些 业务 往往 每 天 导入 一 批 数据 ， 由 于 业务 逻辑 复 
杂 ， 上 游 系统 很 可 能 出 错 ， 导 致 某 一 天 导入 的 数据 出 现 问题 ， 需 要 将 这 部 分 出 错 的 
数据 删除 掉 。 由 于 导入 的 数据 量 很 大 ， 一 条 一 条 删除 其 中 的 每 行 数据 是 不 现实 的 。 
因此 ，0ceanBase 实 现 了 批量 删除 功能 ， 具 体 做 法 和 数据 自动 过 期 功能 类 似 ， 使 用 
者 可 以 增加 一 个 删除 规则 ， 比 如 删除 创建 时 间 在 某 个 时 间 段 的 数据 行 ， 以 后 所 有 的 
读 操 作 都 会 自动 过 滤 这 些 出 错 的 数据 行 ， 每 日 合并 时 这 些 出 错 的 数据 行 会 被 物理 删 
BR. 


第 11 E 质量 保证 、 运 维 及 实践 


OceanBase 系 统一 直 在 不断 演化 ， 需 要 在 代码 不 断 变 化 的 过 程 中 保持 系统 的 稳定 
性 。 因 此 ， 合 理 的 质量 保证 体系 关乎 系统 的 成 改 。 为 了 保证 系统 质量 ，OceanBase 
做 了 大 量 工 作 ， 在 RD (HARLIN ) AFR. QA ( 指 测试 工程 师 ) 测试 、 上 线 试 运 
行 和 名 个 阶段 对 系统 质量 把 关 。 


系统 的 性 能 和 稳定 性 得 到 保障 后 ， 还 需要 具备 恨 好 的 可 运 维 性 。0ceanBase 借 鉴 了 
Oracle 数 据 库 中 的 “系统 表 ” 机 制 ， 将 表格 Schema、 监 控 数 据 、 系 统 内 部 状态 等 信 
息 保存 到 内 部 系统 表 中 ， 从 而 能 够 基于 系统 表 构 建 监控 界面 、 运 维 管 理 界 面 以 及 运 


维 工具 。 


最 后 ， 系 统 只 有 通过 上 线 使 用 才能 证 明 自 己 并 发 现 设 计 和 实现 上 的 不 足 。 本 章 首 先 

介绍 oceanBase 的 质量 保证 体系 和 运 维 体系 ， 接 着 以 收藏 夹 、 天 独 评 价 和 直通 车 报 
表 为 例 介绍 oceanBase 系 统 的 使 用 情况 。 最 后 ， 笔 者 总 结 了 实践 过 程 中 的 经 验 教 
il. 


11.1 质量 保证 


互联 网 基础 产品 的 质量 保证 不 只 是 QA 的 事情 ， 从 RD 设计 、 编 码 开始 ， 系 统 提 测 ， 直 
全 最 后 上 线 ， 每 个 环节 都 需要 重视 质量 保证 工作 。0ceanBase 的 质量 保证 体系 如 图 


11-1 所 示 。 
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11-1 0ceanBase 质 量 保证 体系 


个 新 版 本 需要 经 过 开 友 = > 单元 测试 & 快 速 测试 = > RD ( 开 上 工程 师 ) 压力 测试 = > 


系统 提 测 = > QA ( 测试 工程 师 ) 接口 、 功 能 、 容 灾 、 压 力 测试 = > 兼容 性 测试 = > 
Benchmark 测 试 才能 最 终 友 布 ， 其 中 ，RD 压 力 测试 和 兼容 性 测试 是 可 选 的 。 友 布 的 
新 版 本 还 需要 经 过 业务 压力 测试 或 者 线 上 流量 回放 才能 上 线 试 运行 ， 试 运行 一 段 时 
间 后 没有 友 现 问题 才能 最 终 上 线 。 


11.1.1 RD 开发 


系统 Bug 暴 露 越 早 修复 代价 越 低 ， 开 发 工程 师 是 产生 Bug 的 源头 ， 开 发 阶段 主要 通过 
编码 规范 、 代 码 审 核 ( Code Review ) 、 单 元 测试 保证 代码 质量 。 另 外 ， 系 统 提 测 
前 RD 需要 主动 执行 快速 测试 ( quicktest) ， 从 而 避免 返工 。 


1 .编码 规范 


编码 规范 规定 了 函数 、 变 量 、 类 型 的 命名 规则 ， 保 证 统一 的 注释 和 排版 风格 。 除 此 
之 外 ， 为 了 避免 C/C++ 服务 器 阅 编 程 常见 缺陷 ，0ceanBase 编 码 规 沁 还 制定 了 一 些 规 
则 ， 如 下 所 示 : 


1 ) 一 个 函数 只 能 有 一 个 入 口 和 一 个 出 口 。 不 允许 在 函数 中 使 用 goto 语 句 ， 也 不 允许 
为数 中 途 return 返 回 。 


如 图 11-2 所 示 ， 左 边 的 代码 中 途 调 用 了 return， 在 OceanBase 编 码 规范 中 是 不 允许 
的 ， 可 以 修改 为 右边 的 方式 。 这 条 规定 有 一 定 的 争议 ， 很 多 优秀 的 开源 项 目 都 允许 
国 数 中 途 return。 之 所 以 这 么 规定 ， 是 为 了 确保 函数 执行 过 程 中 申请 的 资源 被 释放 
掉 。 对 于 分 布 式 人 存储 系统 ， 代 码 稳定 运行 的 重要 性 远 远 高 于 代码 写 得 更 漂亮 。 


boolean ret - true; 
alloc memory( alloc memory(); 
TE (x 0) Lf (e >70) 
do somethingl(); do somethingl(); 
free memory(); ret - true; 
} 


else 


} 
else { 
{ 


do_something2(); 

do something2(); ret = false; 

free memory(); ) 

return false; free memory(); 
return ret; 





11-2 单 入 口 单 出 口 


2) 将 止 在 遂 数 中 抛 异常 ， 谨 慎 使 用 STL、boost。C/C++ 编 程 的 麻烦 之 处 在 于 资源 管 
E, 尤其 是 内 存 管 理 。STL、boost 库 接口 容易 使 用 ， 能够 提高 编码 效率 ， 但 是 内 存 
管理 混乱 ， 不 易 调试 ， 且 大 多 数 开 发 工程 师 不 了 解 其 内 部 实现 ， 不 适用 于 高 性 能 服 
务 器 的 开 妈 。 


3) 资源 管理 做 到 可 控 。 所 有 的 内 存 申请 操作 都 需要 经 过 0ceanBase 全 局 内 存 管理 
器 ， 不 允许 直接 在 代码 中 调用 new/ma1l1oc 申 请 内 存 。 另 外 ， 系 统 初始 化 时 启动 所 有 
线程 ， 执 行 过 程 中 不 允许 动态 局 动 额外 的 线程 。 


4) 每 个 可 能 失败 的 浮 数 都 必须 返回 错误 码 ，6 表 示 成 功 ， 其 他 值 表示 出 错 。 调 用 者 
需要 仔细 、 全 面 地 处 理 调 用 涵 数 返回 的 每 个 错误 码 。 


5 ) 所 有 的 指针 使 用 前 都 必须 判 空 ， 不 允许 使 用 assert[1] 语 句 蔡 代 错 误 检查 。 这 条 
规定 是 为 了 保证 程序 执行 过 程 中 出 现 异常 情况 时 能 够 打印 错误 日 志 而 不 是 core 
dump。 


6 ) ^ÍCEFISSFHstrcpy/strcat/strcpy/sprintfSE-eRPERIRÍ'EERZX , TUB FBXS NL 
的 限制 字符 串 长 度 函 数 : strncpy/strncat/strncpy/snprintf ， 从 而 防止 字符 串 
操作 越界 。 


7) 严格 要 求 自己 ， 编译 时 要 开启 6CC 所 有 报警 开关 ， 例如 : -Wall-Werror- 


Wextra-Wunused-parameter-Wformat-Wconversion-Wdeprecated。 代 码 提 交 前 


需要 确保 解决 所 有 的 报警 。 
2. 代 码 审核 


OceanBase 开 发 时 要 求 所 有 代码 提交 前 至 少 由 一 人 审核 ， 对 于 关键 代码 改动 ， 例 
如 ， 紧 急 修复 线 上 Bug， 需要 架构 师 和 各 个 小 组 的 技术 负责 人 参与 。 


代码 审核 工作 主要 包含 两 个 部 分 : 编码 风格 审核 ， 比 如 是 否 符合 编码 规范 ， 接 口 设 
计 是 否 合理 ， 以 及 实现 逻辑 审核 。 其 中 ， 实 现 逻 辑 审核 是 难点 ， 要 求 理解 每 个 代码 
实现 细节 ， 并 给 出 建设 性 意见 。 每 个 刚刚 加 入 团队 的 新 人 都 会 分 配 一 个 师 吕 ， 师 咒 
的 其 中 一 项 职责 就 是 审核 新 人 的 代码 ， 与 新 人 一 起 共同 对 代码 质量 负责 。 


OceanBase 采 用 开源 的 ReviewBoard ( http://www.reviewboard.org/ ) 作为 代 
码 审 核 系统 ， 如 图 11-3 所 示 。 


to Review Board 


My Dashboard New Review Request - All review requests Groups Submitters Search Products 


| Starred Reviews All Incoming Review Requests 

Outgoing Reviews Summary . 

Incoming Reviews [/branches/dev newfeature] ££383E1z83blo clc Ets 

| To Me [/dev sql bugfix] fi mergeserverz i killfr jojo 

| all user [sql misc DB CHE OBRH RNE 
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3 .单元 测试 


OceanBase 采 用 google test 以 及 google mock 进 行 单元 测试 。 单 元 测试 的 关键 点 
在 于 系统 接口 设计 时 考虑 可 测 性 ， 并 提高 每 个 开发 人 员 的 单元 测试 意识 。 


OceanBase 单 元 测试 已 接 入 一 淘 网 内 部 开发 的 Toast 平 台 ， 每 天 晚上 会 自动 回归 所 有 
的 单元 测试 用 例 。Toast 平 台 说 明文 档 见 


http://testing.etao.com/book/export/html/285, 
4. 快 速 测试 ( quicktest ) 


快速 测试 选取 所 有 测试 用 例 的 一 个 子 集 ， 这 个 子 集 中 的 每 个 用 例 执行 都 很 快 ， 从 而 
做 到 快速 回归 。 快 速 测试 部 署 成 定时 任务 ， 每 天 自动 回归 ， RD 提交 某 个 功能 的 代码 
之 前 也 会 主动 运行 快速 测试 ， 从 而 使 得 主干 代码 保持 基本 稳定 。 


5 .RD 压力 测试 
(1) 分 布 式 存储 引擎 压力 测试 
分 布 式 存储 引 掌 压力 测试 工具 包含 两 个 : syschecker 以 及 mixed_test。 


在 syschecker 工 具 中 ， 多 个 客户 端 并 发 读 写 一 行 或 者 多 行 数据 ， 并 对 读 取 到 的 每 行 
数据 进行 校 验 。 对 于 每 行 数据 ， 其 中 的 每 一 列 都 对 应 一 个 辅助 列 ， 二 者 数据 之 和 为 
868。 假设 某 列 数据 出 错 ，syschecker 能 够 很 快 检测 出 来 。 


syschecker 写 入 速度 很 快 ， 能 够 友 现 分 布 式 存 储 引 掌中 的 大 部 分 问题 ， 然 而 ， 
syschecker 只 校 验 单行 数据 ， 不 校 验 多 行 数据 之 间 的 关系 。 因 此 ，syschecker 无 
法 发 现 某 行 数据 全 部 丢失 的 情况 。mixed_test 正 是 用 来 解决 这 个 问题 的 ， 它 不 仅 对 
每 行 数 据 进 行 校 验 ， 还 校 验 多 行 数据 乙 间 的 关系 ， 能 够 检测 出 某 行 数据 全 部 丢失 的 
情况 。 当 然 ，mixed_ test 写 入 速度 较 慢 ，syschecker 和 mixed test 两 个 工具 总 是 
配合 使 用 ， 各 有 优势 。 


( 2 ) 数据 库 功 能 压力 测试 


数据 库 功能 压力 测试 工具 包含 两 个 : sqltest 以 及 bigquery。 


esqltest 工 具 测试 时 将 指定 一 些 SQL 语句 ，sqltest 工 具 会 将 这 些 语句 分 别 发 送 给 
MySQL 以 及 0ceanBase 数 据 库 。 如 果 二 者 的 执行 结果 相同 ， 则 认为 sqltest 测 试 通 
过 ; 否则 ， 测 试 失败 。 


ebigquery 工 具 是 sqltest 工 具 的 补充 ， 专 门 用 于 测试 OLAP 并 发 查询 功能 。 

bigquery 中 每 个 查询 涉及 的 数据 往往 跨 多 个 子 表 ， 能 够 触发 0ceanBase 的 并 发 查询 
功能 。 当 然 ，bigquery 灵 活性 不 够 ， 只 能 执行 特定 的 SQL 语句 ， 而 sqltest 能 够 执 

行 0ceanBase 支 持 的 所 有 SQL 语句 。 因 此 ，bigquery 和 sqltest 两 个 工具 也 是 配合 

使 用 ， 各 有 优势 。 


OceanBase 早 期 测试 资源 严重 不 足 ， 因 此 ， 要 求 开 发 在 提 测 前 必须 运行 一 遍 压 力 测 
试 。 然 而 ， 这 些 压力 测试 工具 的 维护 非常 耗 时 。2613 年 开始 ，RD 压 力 测试 工具 逐步 
废弃 ， 其 中 的 测试 用 例 逐 步 融 合 到 QA 压力 测试 工具 中 。 


[1]c 语 言 中 的 宏 定义 ， 如 果 传 入 条 件 不 成 立 ， 程 序 直 接 core dump 退 出 。 
11.1.2 QA 测试 


RD 提 测 新 版 本 后 ， 进 入 QA 测试 阶段 。QA 首 先 快速 执行 一 次 快速 测试 ， 如 果 快速 测试 
失败 ， 则 通知 RD 修复 问题 后 重新 提 测 。 否 则 ， 进 入 后 续 的 接口 、 功 能 、 容 灾 、 压 力 
测试 。 如 果 系 统 设计 变化 较 大 ， 还 需要 执行 专 | 的 兼容 性 测试 。 需 要 注意 的 是 ， 
OceanBase 开 发 模式 逐步 走向 敏捷 化 ，QA 往 往 企 正式 提 测 前 融 已 经 完成 了 一 部 分 测 
试用 例 的 执行 。 


( 1) 接口 测试 


使 用 者 通过 JDBC/MySQL 客户 端 库 访问 OceanBase。 由 于 0ceanBase 访 问 协议 兼容 
MySQL 协 议 ， 因 此 ， 直 接 将 MysQL 数 据 库 的 官方 测试 工具 和 部 分 官方 测试 用 例 移 植 过 
来 测试 OceanBase。 


(2) 功能 、 容 灾 测 试 


OceanBase 包 含 很 多 功能 ， 例 如 每 日 合并 、 负 载 均衡 、 新 机 器 上 线 、 主 备 同 步 、 主 
UpdateSserver 选 举 等 。 功 能 测试 会 构造 场景 触 上 友 这 些 功能 ， 并 引入 各 种 异常 ， 如 阻 
塞 网 络 、 杀 死 服务 器 进程 、 模 拟 磁 盘 故 障 等 来 验证 系统 的 容 灾 能 力 。 


OceanBase 的 接口 、 功 能 、 容 灾 用 例 都 实现 了 自动 化 和 文本 化 。 自 动 化 的 好 处 在 于 
无 须 人 工 介 入 ， 文 本 化 的 好 处 在 于 方便 添加 和 维护 测试 用 例 ， 从 而 适应 系统 快速 开 
上 友 的 需要 。 下 面 是 updateserver 其 中 一 个 主 备 切换 测试 用 例 : 


搁 [ 署 一 个 OceanBase 集 群 

deploy obi-OBI(cluster-1211); 

deploy obi1.reboot; 

sleep 10; 

失 车 接 到 其 中 一 台 MergeServer(ms08) 

deploy obi.connect conn1 msO admin admin test; 
connection conni; 


# 执 行 DDL( 建 表 ) 以 及 DML 语 句 (insert/update/delete) 


create table t1(pk int primary key,c1 varchar); 


insert into t1 values(2, '2 abc'), (3, '3 abc') , (4, '4 abc"), 


(5, '5 abc'); 

update t1 set c1-'5 UPDATE'where pkz5; 
delete from t1 where pk-2; 

# 读 取 表 格 内 容 

select*from t1; 

# 获 取 原 有 的 主 UpdateServer 的 地 址 并 记录 为 $a 
let$a=deploy get value(obi.get master ups); 
# 关 闭 主 UpdateServer 并 等 待 36 秒 

deploy ob1.stop master ups; 

sleep 30; 

# 获 取 新 的 主 UpdateServer 的 地 址 记录 为 $b 
let$b-deploy get value(obi.get master ups); 
# 读 取 表 格 内 容 


select*from t1; 


# 比 较 $a 和 $b， 看 二 者 是 否 不 同 

if($a! =$b) 

{ 

--echo success 

} 

deploy ob1.stop ; 

执行 步骤 如 下 : 

1 ) 部 署 一 个 OceanBase 集 群 ， 集 群 名 称 为 ob1。 
2 ) 连接 到 其 中 一 台 MergeServer ( ms6 ) 。 


3 ) 执行 DDL ( 建 表 ) 以 及 DML 语 句 ( insert/update/delete) 。create tablej& 
句 创建 了 一 个 包含 两 列 的 表格 t1， 其 中 ，pk 列 为 主键 。DML 语 句 对 表格 t1 执 行 增 、 
删 、 改 操作 。 


4 ) 读 取 表 格 t1 中 的 内 容 ; 获取 原 有 的 主 UpdateServer 的 地 址 并 记录 为 $a。 


5 ) 关闭 主 UpdateServer 并 等 待 36 秒 。 正 常情 况 下 ，0ceanBase 将 自动 发 生 主 备 切 
换 ， 主 UpdateServer 的 地 址 会 友 生 变化 ， 且 仍然 能 够 正常 读 取 表格 t1 中 的 内 容 。 


6) 再 次 读 取 表 格 t1 中 的 内 容 ; 获取 新 的 主 UpdateServer 的 地 址 并 记录 为 $b。 


7 ) 比较 主 备 切换 前 后 的 主 updateserver 地 址 ， 看 二 者 是 否 不 同 。 


每 个 测试 用 例 对 应 一 个 预期 结果 文件 ,0ceanBase 的 测试 框架 将 执行 该 测试 用 例 并 
生成 一 个 运行 结果 文件 。 如 果 运 行 结果 文件 和 预期 结果 文件 完全 相同 ， 则 测试 用 例 
通过 ; 否则 ， 测 试用 例 不 通过 ， 测 试 框架 将 输出 预期 结果 文件 和 运行 结果 文件 的 差 


已 
Zio 


2 .压力 测试 


分 布 式 存 储 系统 中 很 多 问题 只 有 人 在 高 并 友 或 者 大 数据 量 的 情况 下 才 会 出 现 。 

OceanBase 压 力 测试 的 原理 是 持续 不 断 地 写 入 数据 ， 并 在 这 个 过 程 使 用 大 量 客户 六 
读 取 并 验证 数据 。 假 设 线 上 的 数据 量 为 2TB， 查 询 次 数 为 每 秒 19668 次 ， 那 么 ， 只 要 
测试 环境 的 数据 量 为 4 ~ 16TB ( 线 上 数据 量 的 2 ~ 5 倍 ) ， 测 试 环境 的 读 压 力 为 每 秒 
20000 ~ 500007X ( 线 上 读 压力 的 2 ~ 51%) ， 那 么 ， 基 本 可 以 认为 系统 是 稳定 的 。 


QA 压力 测试 工具 融合 了 11.1.1 节 中 提 到 的 RD 压力 测试 工具 的 测试 用 例 ， 且 支持 自动 
志 续 回归 和 测试 用 例文 本 化 ， 从 而 降低 维护 成 本 。 另 外 ，QA 压 力 测试 工具 还 支持 容 
灾 操 作 ， 例 如 杀 死 某 个 服务 器 进程 ， 发 起 主 备 切 换 ， 等 等 。 


3.Benchmark 测 试 


Benchmark 测 试 是 具有 代表 性 的 SQL 语句 ， 例 如 读 写 一 行 数据 ， 读 写 一 批 数据 但 不 排 
序 ， 读 写 一 批 数 据 目 排序， 计算 count/sum/distinct， 等 值 连接 ， 等 等 。 测 试 团 
队 定 期 发 布 Benchmark 测 试 报告 ， 如 果 发 现 系统 性 能 相 比 前 一 次 有 明显 提升 或 者 下 
降 ， 需 要 开发 团队 说 明 其 中 的 原因 。 另 外 ， 每 个 版 本 正式 发 布 时 需要 提供 一 份 


Benchmark 测 试 报 告 。 


4.. SEES ERU 


OceanBase 开 发 过 程 中 保证 兼容 应 用 以 前 使 用 的 接口 ， 如 果 系 统 做 了 较 大 的 设计 重 
构 ， 需 要 执行 兼容 性 测试 确保 使 用 过 的 接口 不 会 出 现 问题 。 


另外 ，0ceanBase 支 持 主 备 两 个 集群 ， 系 统 升级 时 往往 先 升级 备 集群 ， 如 果 没 有 发 
现 问题 ， 才 会 升级 主 集群 。 升 级 过 程 中 两 个 集群 会 部 署 不 同 版 本 的 程序 ， 兼 容 性 测 
试 需要 确保 这 种 部 署 方 式 能 够 正音 工作 ， 且 新 版 本 出 现 问题 时 ， 需 要 能 够 回 滚 到 老 
版 本 。 


11.1.3 试 运行 


互联 网 产品 开发 的 理念 是 “小 步 快 跑 ， 快 速 试 错 ”， QA 测试 阶 段 不 可 能 发 现 所 有 的 
Bug ,很 多 问题 需要 等 到 系统 上 线 试 运行 阶段 才能 发 现 。 试 运行 部 分 有 如 下 几 步 。 

1. 业 务 压 力 测试 

业务 第 一 次 上 线 时 ， 无 法 执行 线 上 流量 回放 测试 ， 此 时 ， 应 用 方 往往 会 和 
OceanBase 团 队 一 起 对 业务 进行 一 次 压力 测试 。0ceanBase 测 试 人 员 首 先 将 应 用 初 
始 数据 导入 到 一 个 模拟 环境 ， 应 用 方 会 选取 几 个 经 常 使 用 的 业务 场景 ， 对 
OceanBase 系 统 进 行 压 力 测 试 。 

2. 线 上 流量 回放 


系统 试 运行 之 前 ， 往 往 需 要 构造 环境 模拟 线 上 请 求 。0ceanBase 测 试 人 员 会 将 线 上 
环境 的 数据 导入 到 一 个 模拟 环境 ， 并 在 模拟 环境 回放 线 上 的 读 写 请 求 。 线 上 流量 回 
放 工 具 支 持 回 放任 意 倍数 的 线 上 请 求 ， 从 而 友 现 各 种 问题 ， 包 括 接口 使 用 、 性 能 、 
负载 均衡 等 方面 的 问题 。 线 上 流量 回放 是 0ceanBase 上 线 试 运行 的 最 后 一 道 防线 。 


3. 灰 度 上 线 


系统 通过 了 所 有 的 测试 环节 便 可 以 上 线 试 运行 了 ， 这 个 过 程 又 称 为 灰 度 上 绪 。 


如 果 应 用 从 别 的 数据 库 迁 移 到 oceanBase， 那么 ， 灰 度 上 线 阶段 会 同时 写 两 份 数 
据 ， 一 份 写 到 之 前 的 系统 ， 一 份 写 到 oceanBase， 这 个 阶段 应 用 方 还 会 对 两 个 系统 
的 数据 进行 数据 比 对 。 如 果 没 有 问题 ， 则 将 读 流量 逐步 切入 到 OceanBase。 


如 果 应 用 从 OceanBase 老 版 本 升级 到 新 版 本 ， 那 么 ， 灰 度 上 线 阶段 会 首先 升级 备 集 
群 到 新 版 本 ， 并 将 读 流量 逐步 切入 。 如 果 没 有 发 现 问题 ， 则 将 备 集群 切换 为 主 集 
群 ， 由 新 版 本 提供 读 写 服务 ， 最 后 再 升级 原先 的 主 集群 到 新 版 本 。 备 集群 切换 为 主 
集群 的 风险 较 高 ， 如 果 发 现 问题 ， 需 要 立即 切换 回 老 版 本 。 整 个 升级 过 程 需 要 通过 
之 前 提 到 的 兼容 性 测试 模拟 。 


11.2 使 用 与 运 维 
OceanBase 不 是 设计 出 来 的 ， 而 是 在 使 用 过 程 中 不 断 进 化 出 来 的 。 因 此 ， 系 统 使 用 
以 及 运 维 的 方便 性 至 关 重 要 。 


OceanBase 的 使 用 者 是 业务 系统 开发 人 员 ， 并 交 由 专门 的 0ceanBase DBA 来 运 维 。 
为 了 方便 业务 使 用 ，0ceanBase 实 现 了 sQL 接 口 且 兼 容 MysQL 协 议 ， 从 而 融入 到 
MySQL 开 源 生 态 圈 。MySQL 大 部 分 管理 工具 ， 例 如 MySsQL 客 户 端 ，MySQL admin , 能 
够 在 OceanBase 系 统 中 直接 使 用 。 另 外 ，0ceanBase 将 系统 运 维 、 监 控 相 天 的 内 部 
言 息 人 存放 到 内 部 的 系统 表 中 ， 从 而 方便 运 维 、 监 控 系 统 获取 。 


11.2.1 使 用 


OceanBase 早 期 版 本 只 人 允许 通过 Java 或 者 C API 接口 访问 ， 新 版 本 增加 了 SQL 支持 ， 
且 兼 容 MysQL 客 户 端 访问 协议 。0ceanBase 推 荐 用 户 使 用 sQL ， 但 老 应 用 仍然 可 以 使 


用 以 前 的 Java API 访问 OceanBase。 下 面 介 绍 几 个 访问 与 使 用 场景 。 
1.MySQL 客 户 端 连接 


如 图 11-4 所 示 ， 使 用 者 采用 MySQL 客 户 端 连接 0ceanBase。 通 过 MySQL 客 户 端 可 以 查 
看 系统 已 有 的 表格 、 表 格 schema ,执行 select、update、insert、delete 等 SQL 
语句 ， 查 看 系统 内 部 状态 ， 以 及 发 送 0ceanBase 集 群 运 维 命令 。 图 中 首先 通过 
create table 命 令 创建 一 张 名 称 为 test 的 表格 ， 表 格 包 含 两 列 : id 和 name， 其 中 
id 为 主键 。 接 着 ， 往 表格 中 写 入 两 行 记 录 (1, "alice") , (2, "bob") 。 最 后 ， 
通过 select 语 句 读 取 这 两 行 数据 。 


Welcome to the MySQL monitor. Commande end with ; 
Tour MySQL connection id is O 
Server version: 5.5.1 OceanBase 0.4.1.2 


or "Ah for help. Type ^c” to clear the current input si 


mysql? drop table test; 
Query OK, 0 rows affected (0.28 


nyzql? ate table test(id int primary key, name varchar(64)); 
Query n row affected (0.43 sec) 


mysql? 
Empty £ 


mysql? insert into 
Query OK, 1 row a 


mysql> insert into 


Query OK, 1 row affect 


mysql? select * from test; 
E 

一 十 

alice | 

b a h 











2 rows in set (0.01 sec) 


&| 11-4 采用 MySsQL 客 户 端 连接 OceanBase 


2.]JDBC 访 问 ( JDBC template ) 
]ava 应 用 通过 标准 JDBC 访 问 OceanBase， 代 码 如 下 所 示 : 
ObGroupDataSource groupSource-new OBGroupDataSource(); 


groupSource.setUserName("user") ;// 设 置 用 户 名 





groupSource.setPasswd("pass");//i& EZI 
groupSource.setDbName("test");//0ceanBase 不 支持 db， 这 里 可 以 填 任 意 值 
groupSouorce.setConfigURL(ob_addr_ur1);// 设 置 0ceanBase 集 群 的 地 址 
groupSource.init();// 初 始 化 data source 

JdbcTemplate jtp=new JdbcTemplate(); 
jtp.setDataSource(groupSource);//ig&jdbc template 依 赖 的 data source 
String sql="select 1 from dual"; 

int ret=jtp.queryForInt(sql);// 执 行 SQL 查 询 

3 .Spring 集 成 

可 以 通过 将 OceanBase DataSource 集 成 到 spring 中 ， 配 置 如 下 : 

<bean id-"groupDataSource" 
class="com.alipay.oceanbase.ObGroupDataSource" 
init-method="init" > 

«property name="username"value="user"/> 

<property name="passwd"value="pass"/> 


<property name="dbName"value="test"/> 


«property name-"configURL"valuezob addr url/» 
</bean> 
4. C2 Fg 


C 应 用 通过 oceanBase 人 客户 端 访问 oceanBase， 使 用 方式 与 MySQL 客户 端 完 全 一 
致 ， 代 人 码 如 下 : 


MYSQL mysql; 
mysql init(&mysq1); // 初 始 化 


mysql real connect(&mysql,ob url,ob user,ob pass,NULL , O0 , NULL, 
0); /连接 oceanBase 数 据 库 


mysql real query(&mysgql,sql,strlen(sql)); /执行 SQL 查询 
MYSQL_RES*res=mysql_store_result(&mysql); /获取 SQL 查询 结果 集 
// 处 理 SQL 查 询 返 回 的 结果 集 


while(MYSQL ROW row=mysql_fetch_row(res)) // 从 结果 集 读 取 一 行 数据 


// 处 理 结果 集中 的 一 行 结果 


mysql free result(res); // 释 放 结 果 集 


mysql close(&mysql); /关闭 连接 


当然 ， 应 用 可 能 会 在 客户 辛 维 护 0ceanBase 连 接 池 ，Java 应 用 还 可 能 会 使 用 其 他 持 
久 层 框架 ， 例 如 iBatis。 由 于 0ceanBase 兼 容 ]DBC 和 MySQL C 客 户 端 ， 使 用 MysQL 
的 应 用 无 须 修 改 代码 就 能 接 入 0ceanBase。 


11.2.2 运 维 


OceanBase 内 部 实现 了 系统 表 机 制 ， 用 于 存储 监控 以 及 运 维 相关 的 信息 。 内 部 系统 
表 包 含 的 内 容 如 下 : 


e 数 据 字典 : 表格 的 定义 以 及 表格 之 间 的 天 系 、 用 户 以 及 权限 信息 ; 
e 服 务 器 列表 : 集群 中 每 种 角色 所 在 的 服务 器 列表 ， 
e 配 置信 息 : 集群 中 每 从 服务器 的 配置 信息 ; 


e 内 部 状态 : 每 台 服 务 器 的 读 写 次 数 、 读 写 征 时 、 缓 存 命中 率 、 子 表 个 数 、 内 存 、 磁 
盘 、CPU 使 用 情况 、 请 求 天 键 路 径 时 间 消 耗 ， 每 日 合并 状态 等 ; 


基于 内 部 系统 表 ， 可 以 开发 各 种 方便 的 0ceanBase 运 维 功 能 ， 如 0ceanBase 数 据 库 


会 话 (Session) 管理 ， 读 写 性 能 实时 监控 工具 、 监 控 平 台 等 。 


11-5 是 0ceanBase 某 线 上 应 用 平均 读 取 延 时 的 监控 图 ， 包括 单行 读 取 平 均 延 时 
(average succ get time ) 以 及 多 行 扫描 平均 延 时 
(average succ scan time) 两 个 指标 ， 且 单位 均 为 微 秒 。 监 控 图 包含 三 种 数 

js: 当前 数据 ( currval ) ， 昨 天 数据 ( lastval) 以 及 上 周 数据 ( baseval ) ， 便 

于 对 比 。 由 于 监控 、 运 维 工具 变化 较 快 ， 这 里 不 做 太 多 介绍 。 


OceanBasel64922.cm6 - average succ get time - SYSOBCKMG 
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11-5 OceanBase 某 线 上 应 用 读 取 征 时 


11.3 应 用 


0ceanBase 上 绪 两 年 左右 的 时 间 已 经 接 入 了 36 多 个 业务 ， 线 上 服务 器 数量 超过 3668 
全。 虽然 0ceanBase 同 时 支持 OLTP 以 及 0LAP 应 用 ， 但 是 0ceanBase 具 有 一 定 的 适 

万 景 。 如 果 应 用 总 数据 量 小 于 266TB， 每 天 更 新 的 数据 量 小 于 1TB， 且 读 写 压力 较 
大 ， 单 台 关 系数 据 库 无 法 支撑 ， 那 么 ， 适 合 采用 oceanBase。 对 于 这 种 应 用 ， 
OceanBase 具 有 如 下 优势 : 


e 无 须 分 库 分 表 。0ceanBase 系 统 内 部 自动 按照 数据 范围 划分 子 表 ， 支 持 子 表 合并 、 
分 裂 、 复 制 、 迁 移 ， 无 须 应 用 考虑 分 库 分 表 以 及 扩 容 问题 。 


e 昂 于 使 用 。0ceanBase 的 使 用 方式 和 关系 数据 库 基 本 一 致 ， 且 保证 强 一 致 性 ， 从 而 
简化 应 用 。 


e 更 低 的 成 本 。0ceanBase 采 用 C++ 语言 实现 ， 并 针对 多 核 、SSD、 大 内 人 存 等 现代 服 
务 器 硬件 特点 做 了 专 | 的 优化 ， 能 够 最 大 程度 地 友 挥 单 台 服 务 器 的 性 能 。 


如 果 应 用 需要 使 用 0ceanBase 专 有 的 功能 ， 例 如 16.4 和 16.5 节 提 到 的 并 发 查询 、 大 
表 左 连接 、 数 据 过 期 ， 那 么 ，0ceanBase 的 优势 会 更 加 明显 。 


当然 ，0ceanBase 并 不 是 万 能 的 。 例 如 ，0ceanBase 不 适合 人 存储 图 片 、 视 频 等 非 结 
构 化 数据 ， 也 不 适合 存储 业务 原始 日 志 。 这 些 信 息 更 适合 存储 在 专门 的 分 布 式 文件 
系统 ， 比 如 Taobao File System、HDFSs 中 。 


本 节选 取 收 藏 来 、 天 猫 评价 、 直 通车 报表 这 几 个 典型 业务 说 明 0ceanBase 的 使 用 情 
况 。 


11.3.1 收藏 夹 


图 11-6 展 示 了 淘宝 某 用 户 的 收藏 夹 。 
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krae 。 “您 的 收藏 夫 中 有 -基站 宝 由 己 尖 总 9 
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11-6 淘宝 某 用 户 收 藏 夹 
收藏 夹 属于 上 典型 的 0LTP 业 务 ， 主 要 功能 如 下 : 


e 收 藏 列表 功能 ( 范围 查询 ) : 按照 某 种 过 渡 条 件 ， 例 如 标题 、 标 签 等 查询 某 个 用 户 
的 所 有 收藏 ; 可 能 需要 按照 某 种 特定 条 件 排序 ， 例 如 商品 价格 、 收 藏 时 间 等 ; 支持 
对 结果 的 分 页 ; 支持 在 结果 集 上 执行 聚合 操作 ， 例 如 count 计 数 。 


e 修 改 操作 : 将 商品 或 者 店铺 添加 到 收藏 夹 ， 删 除 收 藏 , 对 收藏 条 目 打 标 签 。 


16.5.1 节 中 提 到 的 大 表 左 连接 功能 是 收藏 夹 的 难点 ，0ceanBase 高 效 地 实现 了 这 个 
需求 。 截 至 2612 年 11 月 11 日 ， 收 藏 夹 集群 规模 接近 68 人 台 服 务 器 ， 单 表 数 据 量 超过 
166 人 条， 整体 数据 量 超 过 266 人 2 条 。2612 年 11 月 11 日 当天 读 取 次 数 超过 15 亿 ， 且 大 


部 分 查询 为 光 围 查询 ， 读 取 总 条 目 数 超过 986 人 2 条 ， 读 取 平 均 延 时 在 16 ~ 2058 9b, 
11.3.2 天 猫 评价 


图 11-7 展 示 了 天 猫 某 商 品 在 线 评 价 。 
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11-7 天 猫 某 商品 评价 
天 猫 评价 也 属于 典型 的 OLTP 应 用 ， 主 要 功能 如 下 : 


se 评价 展示 ( 范围 查询 ) : 按照 某 种 过 滤 条 件 ， 例 如 标签 ， 得 询 某 个 商品 的 所有 评 
fft ; 可 能 需要 按照 某 种 特定 条 件 排序 ， 例 如 时 | 介 、 信 用 ; 支持 对 结果 的 分 页 ; 支持 


在 结果 集 上 执行 聚合 操作 ， 例 如 Count 计数 . 
。 修 改 操作 : 新 增 一 条 评价 ， 修 改 评价 ， 例 如 将 好 评 修改 为 差 评 。 


天 猫 评价 的 难点 在 于 部 分 商品 评价 数 很 多 ， 达 到 数 十 万 条 ， 极 少数 商品 的 评价 数 甚 
至 超过 一 百 万 条 ， 采 用 传统 数据 库 方 案 很 容易 出 现 超时 的 情况 。0ceanBase 的 优势 
主要 体现 在 两 个 方面 : 


e 相 比 传统 数据 库 ，0ceanBase 的 数据 在 物理 上 连续 人 存放 ， 因 此， 顺序 扫描 性 能 更 
好 ， 适合 大 查询 使 用 场景 。 


e 如 果 一 个 商品 的 评价 数 过 多 ，0ceanBase 系 统 内 部 会 自动 将 该 商品 的 数据 拆 分 成 多 
个 子 表 ， 从 而 发 挥 OoceanBase 的 并 发 查询 优势 。 


天 猫 评价 息 体 数据 量 超过 7 亿 条 ， 大 部 分 查询 能 够 在 26 富 秒 之 内 返回 ， 大 查询 的 延 时 
约 为 296ms， 满 足 了 应 用 的 需求 。 当 然 ， 大 查询 延 时 还 有 较 大 的 优化 空间 。 


11.3.3 直通 车 报表 
直通 车 报表 是 典型 的 0LAP 报 表 需 求 如 图 11-8 所 示 ， 包 含 如 下 几 个 方面 : 
e 数 据 定期 导入 : 每 天 凌晨 将 Hadoop 分 析 结 果 导 入 0ceanBase。 


e 报 表 查 询 : 按照 用 户 、 推 广 计划 、 宝 贝 、 关 键 词 等 多 种 维度 分 组 ， 统 计 展现 量 、 财 
务 伦 费 等 数据 ， 咱 应 前 端的 实时 查询 需求 。 


| 点 击 量 top50 关 键 词 详细 报表 《2013-02-24 至 2013-03-02) 
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11-8 直通 车 报表 查询 页 面 


每 天 导入 0ceanBase 的 数据 中 ， 每 个 关键 词 会 有 一 条 数据 ， 包含 了 这 个 关键 词 当天 
的 展现 量 、 点 击 量 、 财 务 花 费 等 统计 数值 。 用 户 允 许 查 看 最 近 三 天 、 最 近 一 周 、 最 
近 一 个 月 或 者 其 他 任意 时 间 范 围 的 统计 数据 ， 统 计 值 包含 这 个 时 间 范 围 内 展现 量 总 
和 、 财 务 花 费 思 和 等 ， 还 包括 一 些 计 算 值 ， 例 如 点 击 率 (Click Through 
Rate,CTR ) 、 每 次 点 击 人 花费 (Cost Per Click,CPC ) 等 值 ， 按照 用 户 、 推 广 计 
划 、 宝 贝 、 天 键 词 等 维度 分 组 ， 并 且 可 以 按照 任意 列 对 这 些 分 组 的 统计 数据 进行 排 
序 ， 排 序 后 分 页 展 示 。 


直通 车 报表 的 难点 在 于 多 维度 组 合 查 询 ， 每 次 查询 最 多 需要 分 析 上 干 万 条 记录 ， H 
要 求 响 应 时 间 在 秒 级 。 由 于 多 个 维度 可 以 任意 组 合 ， 传 统 数据 库 二 级 索引 的 方式 不 


再 适用 。O0ceanBase 文 持 并 行 计算 ， 自动 将 大 请 求 拆 分 为 多 个 小 请 求 同 时 友 给 多 台 
ChunkServer 并 发 执行， 从 而 将 延 时 降低 一 到 两 个 数量 级 。 另 外 ， 由 于 直通 车 报表 
大 部 分 字段 为 整数 类 型 ，0ceanBase 内 部 会 自动 将 整数 编码 以 后 压缩 存储 ， 从 而 节 
eie. 


基于 容 灾 考虑 ， 直 通车 报表 部 署 了 主 备 两 个 集群 ,每 个 集群 12 台 服务 器 ， 整 体 数 据 
量 超过 1568 亿 条 。 导入 数据 量 大 约 为 10666GB， 导 入 时 间 在 1 到 2 个 小 时 。 线 上 平 
均 查 询 延 时 小 于 166 之 秒 ， 涉 及 干 万 条 以 内 记录 的 大 查询 延 时 在 3 秒 以 内 。 


11.4 最 佳 实践 


分 布 式 存 储 系统 从 整体 架构 的 角度 看 大 同 小 寞 ， 实 现 起 来 却 困 难 重重 。 自 主 研 友 的 
分 布 式 存 储 系统 往往 需要 两 到 三 年 才能 逐步 成 熟 起 来 ， 其 中 的 难点 在 于 如 何 把 系统 
做 稳定 。 系 统 开 友 过 程 中 涉及 架构 设计 、 天 键 算法 实现 、 质 量 控 制 、 团 队 成 员 成 
长 、 线 上 运 维 、 应 用 合作 等 ， 任 何 一 个 环节 出 现 问题 都 可 能 导致 整个 项 目 失败 。 


本 节 首 先 介绍 通用 分 布 式 存 储 系统 发 展 路 径 ， 接 着 分 享 个 人 在 人 员 成 长 、 架 构 设 
计 、 系 统 实 现 、 线 上 运 维 的 一 些 经 验 ， 最 后 给 出 实践 过 程 中 友 现 的 工程 现象 以 及 经 
验 法 则 。 


11.4.1 系统 发 展 路 径 


通用 分 布 式 存储 系统 不 是 设计 出 来 的 ， 而 是 随 着 应 用 需求 不 断 友 展 起 来 的 。 它 来 源 
于 具体 业务 ， 又 具有 一 定 的 通用 性 ， 能 够 解决 一 大 类 问题 。 通 用 分 布 式 存储 平台 的 
优势 在 于 规模 效应 ， 等 到 平台 的 规模 超过 某 个 平衡 点 时 ， 成 本 优势 将 会 显现 。 


通用 分 布 式 仓储 平台 主要 有 两 种 成 长 模式 : 


1) 公司 高 层 制 定 战 略 大 力 友 展 通 用 平台 。 这 种 模式 前 期 友 展 会 比较 顺利 ， 但 是 往往 
会 因为 离 业 务 太 远 而 在 中 期 暴露 大 量 平台 本 身 的 问题 。 


2 ) 来 源 于 具体 业务 并 将 业务 需求 通用 化 。 这 种 模式 会 面临 更 大 的 技术 挑战 ， 但 是 团 
队 成 员 反 而 能 够 在 这 个 过 程 中 得 到 更 多 的 锻炼 。 


第 2 种 发 展 模式 相对 更 加 曲折 ， 大 致 需要 经 历 如 下 几 个 阶段 。 
1 ) 起 步 : 解决 特定 问题 


在 起 步 阶段 ， 需要 解决 业务 提出 的 特殊 需求 ， 这 些 特殊 需求 是 以 前 的 系统 无 法 解决 
或 者 解决 得 不 太 好 的 。 例 如 ，oceanBase 系 统 起 步 时 需要 解决 淘宝 收藏 夹 业务 提出 
的 两 张大 表 左 连接 问题 。 起 步 期 的 挑战 主要 在 于 技术 挑战 ， 团 队 成 员 能 够 在 这 个 阶 
段 获 得 较 大 的 技术 成 长 。 


2 ) 求生 存 : 应 用 为 王 


为 了 证 明 平 台 的 通用 性 ， 需 要 接 入 大 量 的 业务 。 如 果 没有 公司 战略 支持 ， 这 个 阶段 
将 面临 “ 鸡 生 和 绰 还 是 乍 生 鸡 ” 的 问题 ， 没 有 业务 就 无 法 完善 平台 ,平台 不 完善 束 无 
法 吸引 更 多 业务 接 入 。 在 这 个 阶段 ， 优先 级 最 高 的 事情 是 接 入 合适 的 应 用 并 把 应 用 
服务 好 ， 形 成 展 好 的 口碑 。 求 生存 阶段 还 将 面临 一 个 来 目 团队 内 部 的 挑战 ， 团 队 成 
员 缺 乏 起 步 期 的 新 鲜 感 ， 部 分 成 员工 作 拟 情 会 有 所 降低 。 这 个 阶段 需要 明确 团队 的 
fem, MERS , ERE. 


3 ) 平台 化 : 提升 易 用 性 、 可 运 维 性 


当 应 用 数量 积 昧 到 一 定 程 度 后 ， 残 需要 化 大 力气 提升 易 用 性 和 可 运 维 性 了 。 易 用 性 
的 天 键 企 于 采用 标准 的 使 用 接口 ， 兼 容 应 用 以 前 的 使 用 方式 ， 从 而 降低 学 习 成 本 和 


应 用 改造 成 本 ; 提升 可 运 维 性 要 求 将 系统 内 部 更 多 状态 暴露 给 运 维 人 员 并 开 上 友 廊 便 


的 部 署 、 监 控 、 运 维 工具 。 
4 ) 成 就 期 : 持续 不 断 地 优化 


分 布 式 存储 系统 步 入 成 熟 期 后 ， 应 用 推广 将 会 比较 顺利 。 开 友 团 队 在 这 个 阶段 做 的 
事情 主要 是 持续 不 断 地 优化 系统 ， 并 根据 应 用 的 需求 补充 一 些 功能 支持 。 随 着 平台 
规模 不 断 增长 以 及 优化 工作 不 断 深入 ， 平 台 的 规模 效应 将 显现 ， 平 台 取 得 成 功 。 


通用 存储 平台 发 展 过 程 中 困难 重重 ， 要 求 团队 成 员 有 强烈 的 信念 和 长 远 的 理想 ,能 
够 耐 得 住 息 寞 。 另 外 ， 系 统 友 展 过 程 中 需要 保持 对 技术 细节 的 关注， 每 个 实现 细节 
问题 都 可 能 导致 用 户 抱怨 ， 甚 至 3| 起 线 上 故障 。 


从 公司 的 角度 看 ， 是 否 发 展 通用 分 布 式 存 储 平 台 取 决 于 公司 的 规模 。 对 于 小 型 互联 
网 公司 ( 员工 数 小 于 168 人 ) ， 那 么 ， 应 该 更 多 地 选择 广泛 使 用 的 存储 技术 ， 例 如 
MySQL 开 源 天 系数 据 库 ; 对 于 中 型 互联 网 公司 ( 员工 数 在 1686 到 1688 人 之 间 ) ， 那 
么 ， 可 以 组 合 使 用 各 种 SQL 或 NoSQL 存 储 技术 ， 改 进 开 源 产 品 或 者 基于 开源 产品 做 二 
次 开 友 ， 例 如 基于 MysQL 数 据 库 做 二 次 开发 ， 实 现 7.1 节 中 的 MySQL Sharding 架 
构 ; 对 于 大 型 互联 网 公司 ( 员工 数 超过 16686 人 ) ， 那 么 ， 往 往 需 要 自主 研发 核心 存 
储 技术 ， 包 括 分 布 式 架 构 、 人 存储 引 警 等 。 通 用 分 布 式 人 存储 系统 研发 周期 很 长 ， 系 统 
架构 需要 经 过 多 次 迭代 ， 团 队 成 员 也 需要 通过 研发 过 程 来 获得 成 长 ， 因 此 ， 这 种 事 
情 要 么 不 做 ， 要 做 就 务必 坚持 到 底 。 


11.4.2 人 员 成 长 


1. 师 兄 带 师弟 


分 布 式 仓储 系统 新 人 培养 周期 较 长 ， 新 人 的 成 长 一 方面 需要 靠 自 己 的 努力 ， 另 一 方 
面 更 需要 有 经 验 的 师兄 悉心 的 指导 。 


OceanBase 团 队 新 人 加 入 时 ， 会 给 每 人 分 配 一 个 具有 三 年 以 上 大 规模 分 布 式 存储 实 
践 经 验 的 师兄 。 师 兄 的 主要 职责 包括 : 


1 ) 对 于 新 加 入 的 师弟 ( 无 论 应 届 生 与 否 ) ， 提 供 各 种 技术 文档 ， 并 和 解 惑 文档 中 的 问 


Ei 


2 ) 与 技术 负责 人 协商 安排 师弟 的 工作 ; 

3 ) 与 师弟 沟通 代码 编写 ( 包括 功能 实现 、bug 修 复 等 ) 的 思路 ; 

4 ) 审核 师弟 的 代码 并 对 代码 质量 负责 ， 确 保 代 码 符 合 部 门 编码 规范 ; 

5 ) 保持 代码 修改 与 文档 更 新 的 同步 并 审核 师弟 文档 的 正确 性 及 质量 。 
OceanBase 的 各 种 技术 文档 包括 : 

1) 技术 框架 文档 : 介绍 0ceanBase 整 体 技术 架构 和 各 个 模块 的 详细 设计 ; 
2 ) 模块 接口 文档 : 各 个 模块 之 间 的 接口 和 一 些 约定 ; 


3 ) 数据 结构 文档 : 0ceanBase 系 统 中 的 核心 数据 结构 ， 例 如 chunkServer 模 块 的 
SsTable、UpdateServer 模 块 的 NemTable、RootServer 模 块 的 RootTable ; 


4 ) 编码 规范 。 


可 以 看 出 ， 师 兄 主要 的 职责 就 是 帮助 师弟 把 天 设计 和 编码 的 质量 ， 帮 助 师 弟 打 好 基 
础 。 同 时 ， 师 兄 需 要 根据 师弟 的 情况 安排 具有 一 定 挑战 性 但 又 在 师弟 能 力 范围 之 内 


的 工作 ， 并 解答 师弟 提出 的 各 种 问题 。 当 然 ， 成 长 靠 自己 ， 师 弟 需要 主动 利用 业余 
时 间 学 习 分 布 式 仓储 相关 理论 。 


2 .架构 理论 学 习 


基于 互联 网 的 开放 性 ， 我 们 能 够 很 容易 获取 分 布 式 存 储 架 构 相 关 资 料 ， 例 如 Google 
File System、Bigtable、Spanner 论 文 、Hadoop 系 统 源 代码 和 等。 然而， 这 些 论文 
或 者 系统 仅仅 给 出 一 种 整体 方案 ， 并 不 会 明确 给 出 方案 的 实现 细节 以 及 背后 经 历 的 
权衡 。 这 残 要 求 我 们 在 架构 学 习 的 过 程 中 主动 挖 握 整 体 染 构 背 后 的 设计 思想 和 关键 
实现 细节 。 


阅读 GFS 论 文 时 ， 可 以 尝试 思考 如 下 问题 : 
1) 为 什么 存储 三 个 副本 ? 而 不 是 两 个 或 者 四 个 ? 
2 ) Chunk 的 大 小 为 何 选择 64MB ? 这 个 选择 主要 基于 哪些 考虑 ? 


3) GFS 主 要 支持 退 加 ( append ) 、 改 写 ( overwrite ) 操作 比较 少 。 为 什么 这 样 设 
VE ? 如 何 基 于 一 个 仅 支 持 追 加 操作 的 文件 系统 构建 分 布 式 表格 系统 Bigtable ? 


4 ) 为 什么 要 将 数据 流 和 控制 流 分 开 ? 如 果 不 分 开 ， 如 何 实现 追加 流程 ? 
5 ) GFS 有 时 会 出 现 重复 记录 或 者 补 零 记录 (padding ) ， 为 什么 ? 


6 ) 租约 ( Lease ) 是 什么 ? 在 GFs 起 什么 作用 ? 它 与 心跳 (heartbeat ) 有 何 区 


别 ? 


7 ) GFS 追 加 操作 过 程 中 如 果 备 副本 (Secondary ) 出 现 故 障 ， 如 何 处 理 ? 如 果 主 副 
本 (Primary ) 出 现 故 障 ， 如何 处 理 ? 


8 ) GFS Master 需 要 存储 哪些 信息 ?Master 数据 结构 如 何 设计 ? 


9 ) 假设 服务 一 干 万 个 文件 ， 每 个 文件 16B,Master 中 存储 的 元 数据 大 概 占用 多 少 内 
存 ? 


10 ) Master 如 何 实 现 高 可 用 性 ? 
11) 负载 的 影响 因素 有 哪些 ? 如 何 计算 一 台 机 器 的 负载 值 ? 


12 ) Master 新 建 chunk 时 如 何 选择 chunkserver ? 如 果 新 机 器 上 线 ， 负 载 值 特别 
低 ， 如 何 避 免 其 他 ChunkSserver 同 时 往 这 人 台 机 器 迁移 chunk ? 


13 ) 如 果 某 台 chunkserver 报 废 ，GFs 如 何 处 理 ? 

14 ) 如 果 ChunkServer 下 线 后 过 一 会 重新 上 线 ，GFS 如 何 处 理 ? 

15 ) 如 何 实现 分 布 式 文件 系统 的 快照 操作 ? 

16 ) Chunkserver 数 据 结构 如 何 设计 ? 

17) 磁盘 可 能 出 现 “ 位 翻转 ”错误 ，ChunkSserver 如 何 应 对 ? 

18 ) ChunkServer 重 启 后 可 能 有 一 些 过 期 的 chunk, Master 如 何 能 够 发 现 ? 
阅读 Bigtable 论 文 时 ， 可 以 党 试 思考 如 下 问题 : 


1 ) GFS 可 能 出 现 重 复 记 录 或 者 补 零 记 录 (padding) ，Bigtable 如 何 处 理 这 种 情况 
使 得 对 外 提供 强 一 致 性 模型 ? 


2 ) 为 什么 Bigtable 设 计 成 根 表 ( RootTable ) 、 元 数据 表 ( MetaTable ) 、 用 户 


X ( UserTable ) 三 级 结构 ， 而 不 是 两 级 或 者 四 级 结构 ? 

3 ) 读 取 某 一 行 用 户 数 据 ， 最 多 需要 几 次 请 求 ? 分 别 是 什么 ? 
4 ) 如 何 保证 同一 个 子 表 不 会 被 多 台 机 器 同时 服务 ? 

5 ) 子 表 在 内 存 中 的 数据 结构 如 何 设计 ? 

e ) 如 何 设计 sSTable 的 存储 格式 ? 

7 ) minor、merging、major 这 三 种 compaction 有 什么 区 别 ? 
8 ) Tabletserver 的 缓 仔 如 何 实现 ? 


9 ) 如 果 Tabletserver 出 现 故障 ， 需 要 将 服务 迁移 到 其 他 机 器 ， 这 个 过 程 需要 排序 
操作 日 志 。 如 何 实现 ? 


10 ) 如 何 使 得 子 表 迁 移 过 程 停 服务 时 间 尽 量 短 ? 
11) 子 表 分 裂 的 流程 是 怎样 的 ? 
12 ) 子 表 合并 的 流程 是 怎样 的 ? 


忌 而 言 之 ， 学 习 论 文 或 者 开源 系统 时 ， 将 自己 想象 为 系统 设计 者 ， 对 每 个 设计 要 后 
提出 质疑 ， 直 到 找到 合理 的 解释 。 


当然 ， 更 加 有 效 的 学 习 方式 是 加 入 类 似 0ceanBase 这 样 的 开发 团队 ， 通 过 参与 周围 
同事 对 每 个 细节 问题 的 讨论 ， 并 应 用 到 实际 项 目 中 ， 能 够 较 快 地 理解 分 布 式 仓储 理 


论 。 


11.4.3 系统 设计 
1. 架 构 师 职责 


分 布 式 存储 系统 染 构 师 的 工作 不 仅 在 于 整体 架构 设计 ， 还 需要 考虑 清楚 关键 实现 细 
节 ， 做 到 即使 只 有 上 自己 一 人 也 可 以 把 系统 做 出 来 ， 只 是 需要 花费 更 多 的 时 间 而 已 。 


架构 师 的 主要 工作 包括 : 


1) 权衡 架构 ， 从 多 种 设计 方案 中 选择 一 种 与 当前 团队 能 力 最 为 匹配 的 方案 。 染 构 设 
计 的 难点 在 于 权衡 ， 染 构 师 需 要 能 够 在 理解 业务 和 业界 其 他 方案 的 前 提 下 提出 适合 
目 己 公司 的 架构 。 这 样 的 架构 既 能 很 好 地 满足 业务 需求 ， 复 杂 度 也 在 开发 团队 的 掌 
控 范 围 之 内 。 另 外 ， 制 定 系 统 拷 术 友 展 路 线 图 ， 提 前 做 好 规划 。 


2 ) 模块 划分 、 接 口 设 计 、 代 码 规 范 制定 。 系 统 如 何 分 层 ， 模 块 如 何 划分 以 及 每 个 模 
块 的 职责 ， 模 块 的 接口 、 客 户 端 接口 ， 这 些 问 题 都 应 该 在 设计 阶段 考虑 清楚 ， 而 不 
是 遗留 到 编码 阶段 。 另 外 ， 确 保 整 个 团队 的 编码 风格 一 致 。 


3) 思考 清楚 关键 实现 细 市 并 写 入 设计 文档 。 架 构 师 需要 在 设计 阶段 和 团队 成 员 讨 论 
清楚 关键 数据 结构 、 算 法 ， 并 将 这 些 内 容 文 档 化 。 如 果 架 构 师 都 不 清楚 关键 实现 细 
节 ， 那 么 ， 团 队 成 员 往 往 更 不 清 蒂 ， 最 终 的 结果 融 是 实现 的 系统 市 有 不 确定 性 。 如 
果 分 布 式 存储 系统 存在 多 处 缺陷 ， 那 么 ， 系 统 集成 测试 或 者 试 运行 的 时 候 一 定 会 出 
现 进程 Core Dump、 数 据 不 正确 等 问题 。 这 些 问题 在 分 布 式 以 及 多 续 程 环境 下 非 单 
难以 定位 。 如 果 引 友 这 些 错误 的 原因 比较 低级 ， 团 队 成 员 将 无 法 从 解决 错误 的 过 程 
中 收获 成 就 感 ， 团 队 士 气 下 降 ， 甚 至 形成 恶性 循环 。 


4 ) 提前 预知 团队 成 员 的 问题 并 给 予 指导 。 划 分 模块 以 及 安排 工作 时 需要 考虑 团队 成 


员 的 能 力 ， 给 每 个 成 员 安排 适当 超出 其 当前 能 力 的 任务 ， 并 给 予 一 定 的 指导 ， 例 
如 ， 帮助 其 完善 设计 方案 ， 建 议 其 参考 业界 的 某 个 方案 等 。 


忌 而 言 之 ， 每 个 问题 忌 会 有 多 种 技术 万 案 ， 架 构 师 要 有 能 力 在 整体 上 从 稳定 性 、 性 
能 及 工程 复杂 度 明 确 一 种 设计 方案 ， 而 且 思 考 清 楚 实 现 细节 ， 切 忌 模 棱 两 可 。 分 布 
式 存储 系统 的 挑战 不 在 于 存储 理论 ， 而 在 于 如 何 做 出 稳定 运行 且 能 够 尿 步 进化 的 系 
统 。 


2 .设计 原则 
大 规模 分 布 式 存储 系统 有 一 些 可 以 参考 的 设计 准则 : 


1 ) 容错 。 服 务 器 可 能 宕 机 ， 网 络 交 换 机 可 能 友 生 故障 ， 服 务 器 时 钟 可 能 出 错 ， 磁 盘 
存储 介质 可 能 损坏 等 。 设 计 分 布 式 存储 系统 需要 考虑 这 些 因素 ， 将 他 们 看 成 系统 运 
行 过 程 中 必然 友 生 的 “正常 情况 ”。 这 些 错误 友 生 时 ， 要 求 系统 能 够 目 动 处 理 , mu 
不 是 要 求人 工 干 预 。 


2) 目 动 化 。 人 辟 是 会 犯错 的 ， 加 上 互联 网 公司 往往 要 求 运 维 人 员 在 姿 晨 执行 系统 升 
级 等 操作 ， 因 此 ， 运 维 人 员 操 作 失 误 的 概率 远 远 高 于 机 器 故障 的 概率 。 很 多 设计 方 
案 是 无 法 做 到 自动 化 的 ， 例 如 MySQL 数 据 库 主 备 之 间 异 步 复制 。 如 果 主 机 出 现 故 障 ， 
那么 有 两 种 选择 : 一 种 选择 是 强制 切换 到 备 机 ， 可 能 丢失 最 后 一 部 分 更 新 事务 ; 另 
外 一 种 选择 是 停 写 服务 。 显 然 ， 这 两 种 选择 都 无 法 让 人 接受 ， 因 此 ， 只 能 在 主机 出 
现 故 障 时 报警 ， 运 维 人 员 介 入 根据 实际 情况 采取 不 同 的 措施 。 另 一 方面 ， 如 果 主 备 
之 间 实 现 强 同步 ， 那 么 ， 当 主机 出 现 故 障 时 ， 只 需要 简单 地 将 服务 切换 到 备 机 即 

可 ， 很 容易 实现 自动 化 。 当 集群 规模 较 小 时 ， 是否 自动 化 没有 太 大 的 分 别 ; 然而 ， 
随 着 集群 规模 越 来 越 大 ， 目 动 化 的 优势 也 会 变 得 越 来 越 明 显 。 


3) 保持 兼容 。 分 布 式 存储 面临 的 需求 比较 多 样 ， 系 统 最 初 设计 ， 尤 其 是 用 尸 接口 设 
计时 需要 考虑 到 后 续 升 级 问题 。 如 果 没 有 兼容 性 问题 ， 用 户 很 乐意 升级 到 最 新 版 
本 。 这 样 ， 团 队 可 以 集中 精力 开 友 最 新 版 本 ， 而 不 是 将 精力 分 散 到 优化 老 版 本 性 能 
或 者 修复 老 版 本 的 Bug 上 。 


11.4.4 系统 实现 


分 布 式 仓 储 系统 实现 的 天 键 在 于 可 控 性 ， 包 括 代码 复杂 度 、 服 务 器 资源 、 代 码 质量 
等 。 开 友基 础 系统 时 ， 一 个 优秀 工程 师 友 挥 的 作用 会 超过 16 个 平庸 的 工程 师 ， 常见 
的 团队 组 建 方式 是 有 经 验 的 优秀 工程 师 加 上 有 潜质 的 工程 师 ， 这些 有 潜质 的 工程 师 
往往 是 优秀 的 应 届 生 ， 能 够 在 开 友 过 程 中 迅速 成 长 起 来 。 


1 .重视 服务 器 代码 资源 管理 


内 存 ， 线 程 池 ，socket 连 接 等 都 是 服务 器 资源 ， 设 计 的 时 候 就 需要 确定 资源 的 分 配 
和 使 用 。 比 如 ， 对 于 内 存 使 用 ， 设 计 的 时 候 需要 计算 好 服务 器 的 服务 能 力 ， 弟 驻 内 
存 及 临时 内 存 的 大 小 ， 系 统 能 够 自动 友 现 内 存 使 用 异常 。 一 般 来 说 ， 可 以 设计 一 个 
全 局 的 内 存 池 ,管理 内 存 分 配 和 释放 ， 并 监控 每 个 模块 的 内 存 使 用 情况 。 线 程 闻 一 
般 在 服务 器 程序 局 动 时 静态 创建 ， 运 行 过 程 中 不 允许 动态 创建 线程 。 


2 .做 好 代码 审核 


代码 中 的 一 些 bug， 比 如 多 线程 bug， 异 常情 况 处 理 bug， 后 期 友 现 并 修复 的 成 本 很 

高 。 我 们 经 历 过 系统 的 数据 规模 达到 16TB 才 会 出 现 bug 的 情况 ， 这 样 的 bug 需 要 系统 
寺 续 运行 接近 48 小 时 ， 并 且 我 们 分 析 了 大 量 的 调试 日 志 才 友 现 了 问题 所 在 。 前 期 的 

代码 审核 很 重要 ， 我 们 没有 必要 担心 代码 审核 带 来 的 时 间 浪 费 ， 因 为 编码 时 间 在 整 

个 项 目 周期 中 只 占 很 少 一 部 分 。 


代码 审核 的 难点 在 于 执行 ， 人 花 时 间 理 解 其 他 人 的 代码 看 起 来 没什么 “技术 含量 ”。 
0ceanBase 团 队 采 取 的 措施 是 “师兄 责任 制 ”。 每 个 进入 团队 的 同学 会 安排 一 个 师 
兄 ， 师 兄 最 主要 的 工作 就 是 审核 师弟 的 代码 和 设计 细节 。 另 外 ， 每 个 师兄 只 带 一 个 
师弟 ， 要 求 把 工作 做 细 ， 避 免 形式 主义 。 


3 .重视 测试 


分 布 式 存储 系统 开 友 有 一 个 经 验 : 如 果 一 个 系统 或 者 一 个 模块 设计 时 没有 想 好 怎么 
测试 ， 襄 明 设计 方案 还 没有 想 清楚 。 比 如 开 上 友 一 个 基于 Paxos 协 议 的 分 布 式 锁 服 务 ， 
只 有 想 好 了 怎么 测试 ， 才 可 以 开始 开发 ， 否 则 所 做 的 工作 都 将 是 无 用 功 。 系 统 服 务 
的 数据 规模 越 大 ， 开 友人 员 调 试 和 测试 人 员 测 试 的 时 间 残 越 长 。 项 目 进展 到 后 期 需 
要 依靠 测试 人 员 推 动 ， 测试 人 员 的 素质 直接 决定 项 目 成 败 。 


另外 ， 系 统 质量 保证 不 只 是 测试 人 员 的 事情 ， 开 发 人 员 也 需要 通过 代码 审核 、 单 元 
测试 、 小 规模 代码 集成 测试 等 方式 保证 系统 质量 。 


11.4.5 使 用 与 运 维 


稳定 性 和 性 能 并 不 是 分 布 式 存储 系统 的 全 部 ， 一 个 好 的 系统 还 必须 具备 较 好 的 可 用 
性 和 可 运 维 性 。 


1. 吃 自己 的 狗 粮 
开 友 人 员 和 运 维 人 员 往 往 属于 不 同 的 团队 ， 这 融会 使 得 运 维 人 员 的 需求 总 是 包 开 皮 
人 员 排 成 较 低 的 优先 级 甚至 忽略 。 一 种 比较 有 效 的 方式 是 让 开发 人 员 轮 流 运 维 自 己 


开 友 的 系统 ， 定 期 总 结 运 维 过 程 中 的 问题 ， 这 样 ， 运 维 相关 的 需求 能 够 更 快 地 得 到 
解决 。 


2 .标准 客户 端 


标准 客户 端的 好 处 在 于 客户 端 版 本 升级 不 至 于 太 过 频繁 。 通 用 系统 的 上 游 应 用 往往 
会 很 多 ， 推 动 应 用 升级 到 某 个 客户 端 版 本 是 非常 困难 的 。 如 果 客 户 端 频 繁 修改 ， 最 
后 的 结果 往往 是 不 同 的 应 用 使 用 了 不 同 的 客户 端 版 本 ， 以 至 于 服务 器 端 程序 需要 考 
虑 和 很 多 不 同 版 本 客户 跨 之 间 的 兼容 性 问题 。 例 如 ，0ceanBase 的 客户 痛 初 期 采用 
专 有 API 接 口 ， 两 年 之 内 线 上 客户 端的 版 本 数 达 到 数 十 个 之 多 。 后 来 我 们 将 客户 端 和 
服务 端 之 间 的 协议 升级 为 标准 MySQL 访 问 协议 ， 客 户 端的 底层 采用 标准 的 MysQL 驱 动 
程序 ， 从 而 解决 了 客户 端 版 本 混乱 的 问题 。 


3 . 线 上 版 本 管理 


存储 系统 友 展 过 程 中 会 产生 很 多 版 本 ， 有 的 版 本 之 间 变 化 较 大 ， 有 的 版 本 之 间 变 化 
较 小 。 如 果 线 上 维护 太 多 不 同 版 本 ， 那 么 ， 每 个 Bug 的 修复 代码 都 需要 应 用 到 多 个 版 
本 ， 维 护 代价 很 高 。 推 荐 的 方式 是 保证 版 本 之 间 的 兼容 性 ， 定 期 将 线 上 的 低 版 本 升 
级 到 高 版 本 。 


4 .自动 化 运 维 


在 系统 设计 时 ， 就 需要 考虑 到 自动 化 运 维 ， 如 主 备 之 间 采 用 强 同步 从 而 实现 故障 自 
动 切 换 ; 又 如 ， 在 系统 内 部 实现 自动 下 线 一 批 机 器 的 功能 ， 确 保 下 线 过 程 中 每 个 子 
表 至 少 有 一 个 副本 在 提供 服务 。 另 外 ， 可 以 开发 常用 的 运 维 工具 ， 如 一 键 部 署 、 集 
群 目 动 升级 等 。 


11.4.6 工程 现象 


1 .错误 必然 出 现 


只 要 是 理论 上 有 问题 的 设计 或 实现 ， 实 际 运行 时 一 定 会 出 现 ， 不 管 概率 有 多 低 。 如 
果 没 有 出 现 问题 ， 要 么 是 稳定 运行 时 间 不 够 长 ， 要 么 是 压力 不 够 大 。 系 统 开 友 过 程 
中 要 有 洁癖 ， 不 要 放 过 任何 一 个 可 能 的 错误 ， 或 者 心 仓 侥 手 心理 。 


2 .错误 必然 复 现 


实践 表明 ， 分 布 式 系统 测试 中 友 现 的 错误 等 到 数据 规模 增 大 以 后 必然 会 复 现 。 分 布 
陈 系统 中 出 现 的 分 布 式 或 者 多 续 程 问题 可 能 很 难 排查 ， 但 是 ， 没 关系 ， 根 据 现象 推 
测 原因 并 补 调试 日 志 吧 ， 加 大 数据 规模 ， 错 误 肯 定 会 复 现 的 。 


3 .两 倍数 据 规模 


分 布 式 存 储 系统 压力 测试 过 程 中 ， 每 次 数据 量 或 者 压力 翻 倍 ， 都 会 暴露 一 些 新 的 问 
题 。 这 个 原则 当然 是 不 完全 准确 的 ， 不 过 可 以 用 来 指导 我 们 的 测试 过 程 。 例 如 ， 
OceanBase 压 测 过 程 中 往往 会 提 一 个 目标 : TB 级 别 数据 量 的 稳定 性 。 假 设 线 上 真实 
的 数据 量 为 1TB， 那么 我 们 会 在 线 上 测试 过 程 中 构造 2TB ~ 5TB 的 数据 量 ， 并 且 将 测 
试 过 程 分 为 几 个 阶段 : 百 GB 级 别 压力 测试 、TB 级 别 压力 测试 、5TB 数 据 量 测试 、 真 
实数 据 线 下 模拟 实验 等 。 


4 .怪异 现象 的 背后 总 有 一 个 思春 的 初级 bug 


调试 过 程 中 有 时 候 会 友 现 一 些 特别 怪 噶 的 错误 ， 比 如 总 续 错 误 ，core dump 的 堆栈 
面目 全 非 等 ， 不 用 太 担 心 ， 仔 细 审 核 代 码 ， 看 看 编译 连接 的 库 是 否 版 本 错误 等 ， 特 
别 怪 寞 的 现象 背后 一 般 是 很 初级 的 bug。 


5 . 线 上 问题 第 一 次 出 现 后 ， 第 二 次 将 很 快 重 现 


线 上 问题 第 一 次 出 现 往往 是 应 用 引入 了 一 些 新 的 业务 逻辑 ， 这 些 业务 逻辑 加 大 了 问 


题 触 友 的 概率 。 开 发 人 员 经 常会 认为 线 上 的 某 个 问题 是 小 概率 事件 ， 例 如 多 线程 问 
题 ， 加 上 修复 难度 大 ， 从 而 产生 懈 仿 心理 。 然 而 ， 正 确 的 做 法 是 永远 把 线 上 间 题 当 
成 第 一 优先 级 ， 尽 快 找 出 错误 根源 并 修复 挥 。 


11.4.7 经 验 法 则 

1 .简单 性 原则 

简单 束 是 美 。 系 统 开发 过 程 中 ， 如 果 某 个 方案 很 复杂 ， 一般 是 实践 者 没有 想 清楚 。 
OceanBase 开 发 过 程 中 ， 我 们 会 要 求 开 友 人 员 用 一 两 句 话 描述 清楚 设计 方案 ,如果 
不 能 做 到 ， 说 明 还 需要 栋 理 其 中 的 关键 点 。 

2 .精力 投入 原则 


开发 资源 总 是 有 限 的 ， 不 可 能 把 所 有 的 事情 都 做 得 很 完美 。 以 性 能 优化 为 例 ， 我 们 
需要 把 更 多 的 时 间 花 在 优化 在 整体 时 间 中 占 比 例 较 大 或 者 频繁 调用 的 冰 数 上 。 另 
外 ， 在 系统 设计 时 ， 如 果 某 个 事件 出 现 概 率 高 ， 我 们 应 该 选择 复杂 但 更 加 完美 的 方 
案 ; 如 果菜 个 事件 出 现 概率 低 ， 我 们 可 以 选择 不 完美 但 更 加 简单 的 方案 。 


3 . 移 稳 定 再 优化 


系统 整体 性 能 的 关键 在 于 染 构 ， 架 构 上 的 问题 需要 在 设计 阶段 解决 ， 实 现 细 忆 的 问 
题 可 以 留 到 优化 阶段 。 开 发 人 员 常 犯 的 错误 丈 是 在 系统 还 没有 稳定 的 时 候 束 做 性 能 
优化 ， 最 后 引入 额外 的 Bug 导 致 系统 很 难 稳定 下 来 。 实 践 表明 : 把 一 个 高 效 但 有 Bug 
的 系统 做 稳定 的 难度 远 远 高 于 把 一 个 稳定 但 效率 不 高 的 系统 做 高 效 。 当 然 ， 前 提 是 
系统 的 整体 架构 没有 重大 问题 。 


4 . 想 清楚 I 骨 动 手 


无 论 是 设计 还 是 编码 ， 都 要 求 “ 想 清楚 ， 表 动手 。。 对 于 数据 结构 或 者 算法 类 代 

码 ， 如果 有 大 致 的 思路 但 是 无 法 确定 细 忆 ， 可 以 尝试 写 出 伪 代 码 ， 通 过 伪 代 码 把 细 

节 柄 理 清楚 。 开 友人 员 单 犯 的 一 个 错误 融 是 先 写 出 一 个 半成品 ， 然 后 再 修复 Bug。 然 
而 ， 如 果 友 现 Bug 太 多 或 者 整体 思路 出 现 问 题 ， 已 经 写 完 的 代码 将 成 为 “ 食 之 无 味 ， 
弃 之 可 惜 ” 的 鸡肋 ， 只 能 无 奈 返 工 。 


本 书 由 “ePUBw.COM” 整 理 ，ePUBw.COM 提供 最 新 最 全 的 优质 
电子 书 下 载 ! ! S 


本 篇 内 容 
第 12 章 云 存储 


第 13 章 大 数据 
第 12 E 云 存储 


Google、Amazon、Microsoft 等 国外 互联 网 巨头 为 我 们 描述 了 云 计算 的 美妙 场景 : 
当 云 计算 时 代 到 来 之 时 ， 不 必 人 在 你 的 计算 机 上 安装 各 种 各 样 的 软件 ， 只 需要 访 

问 “ 云 ”就 可 以 了 ， 互 联网 巨头 将 会 像 提 供水 电 煤 一 样 提供 随时 可 用 的 计算 能 力 。 
云 存储 是 云 计算 的 存储 部 分 ， 并 且 可 以 作为 一 种 服务 提供 给 用 户 ， 任 何 经 过 授权 的 
合法 用 户 都 可 以 通过 网 络 访问 云 存 储 ， 享 受 云 存储 带 来 的 便利 。 云 存储 是 随 着 互联 
网 和 云 计算 逐步 友 展 起 来 的 ， 从 大 规模 系统 软件 架构 的 角度 看 ， 云 计算 后 端 架构 的 


难点 集中 在 云 存 储 。 本 章 首 先 对 云 存 储 做 一 个 初步 的 介绍 ， 接 着 介绍 Amazon.、 
Google 以 及 Microsoft 的 云 平台 整体 架构 。 


12.1 云 存储 的 概念 


云 存储 是 在 云 计算 概 念 上 衍生 、 友 展 出 来 的 一 个 概念 ， 它 除了 可 以 节省 整体 的 硬件 
成 本 ( 包括 电力 成 本 ) 外 ， 还 具备 良好 的 可 扩展 性 、 对 用 户 的 透明 性 、 按 需 分 配 的 
灵活 性 和 负载 的 均衡 性 等 特点 。 近 年 来 ， 虽 然 已 经 有 很 多 公司 推出 了 云 人 存储 产品 ， 
包括 Amazon S3、Microsoft 的 Azure、Google AppEngine 中 使 用 的 Datastore , 
以 及 Google Cloud Storage 等 ， 但 是 到 目前 为 止 ， 云 存储 并 没有 一 个 明确 的 定 
义 。 本 章 给 出 一 种 定义 ， 供 读者 参考 。 


云 存储 是 通过 网 络 将 大 量 普 通 存 储 设 备 构成 的 存储 资源 池 中 的 存储 和 数据 服务 以 统 
一 的 接口 按 需 提供 给 授权 用 户 。 


云 存 储 属于 云 计算 的 底层 支撑 ， 它 通过 多 种 云 存 储 技术 的 融合 ， 将 大 量 普 通 PC 服 务 
器 构成 的 存储 集群 虚拟 化 为 易 扩 展 、 弹 性 、 透 明 、 具 有 伸缩 性 的 存储 资源 池 ， 并 将 
存储 资源 池 按 需 分 配给 授权 用 户 ， 授 权 用 户 即 可 以 通过 网 络 对 存储 资源 池 进行 任意 
的 访问 和 管理 ， 并 按 使 用 付费 。 云 存储 将 仔 储 资 源 集 中 起 来 ， 并 通过 专门 的 软件 进 
行 自 动 管理 ， 无 须 人 为 参与 。 用 户 可 以 动态 使 用 存储 资源 ， 无 须 考虑 数据 分 布 ， 扩 
展 性 ， 目 动容 错 等 复杂 的 大 规模 存储 系统 技术 细节 ， 从 而 更 加 专注 于 自己 的 业务 ， 

有 利于 提高 效率 、 降 低 成 本 和 技术 创新 。 云 存储 具有 如 下 特点 : 


e 超 大 规模 。 云 存储 具有 相当 的 规模 ， 单 个 系统 存储 的 数据 可 以 到 达 干 亿 级 ， 甚 至 万 
亿 级 ， 如 2611 年 Q4 Amazon S53 存储 的 对 象 个 数 已 经 达到 7626 亿 个 。 


es 高 可 扩展 性 。 云 存储 的 规模 可 以 动态 伸缩 ， 满 足 数据 规模 增长 的 需要 。 可 扩展 性 包 


含 两 个 维度 : 第 一 ， 系 统 本 身 可 以 很 容易 地 动态 增加 服务 器 资源 以 应 对 数据 增长 ; 
第 二 ， 系统 运 维 可 扩展 ， 意味 着 随 着 系统 规模 的 增加 ， 不 需要 增加 太 多 运 维 人 员 。 


e 高 可 靠 性 和 可 用 性 。 通 过 多 副本 复制 以 及 节点 故障 自动 容错 等 技术 ， 云 存储 提供 了 
很 高 的 可 靠 性 和 可 用 性 。 


e 安 全 。 云 仓储 内 部 通过 用 户 鉴 权 ， 访问 权限 控制 ， 安 全 通信 (HTTPS, TLS 协议 ) 
等 方式 保障 安全 性 。 


e 按 需 服务 。 云 存储 是 一 个 庞大 的 资源 池 ， 用 户 按 需 购买 ， 像 自来水 ， 电 和 煤气 那样 
计 费 。 


e 透 明 服务 。 云 存储 以 统一 的 接口 ， 比 如 RESTfu1 接 口 的 形式 提供 服务 ， 后 端 存 储 节 
所 的 变化 ， 比 如 增加 节点 ， 节 点 故障 对 用 尸 是 透明 的 。 


e 自 动容 错 。 云 存储 能 够 自动 处 理 节点 故障 ， 从 而 实现 运 维 可 扩展 ， 保 证 高 可 靠 性 和 
高 可 用 性 。 


e 低 成 本 。 低 成 本 是 云 存 储 的 重要 目标 。 云 存储 的 目 动容 错 使 得 可 以 采用 普通 的 PC 服 
务 器 来 构建 ; 云 存储 的 通用 性 使 得 资源 利用 率 大 幅 提 升 ; 云 存 储 的 自动 化 管理 使 得 
运 维 成 本 大 幅 降低 ; 云 存储 所 在 的 数据 中 心 可 以 建 在 电力 资源 丰富 的 地 区 ， 从 而 大 
幅 降 低能 源 成 本 。 


综 上 所 述 ， 云 存储 是 一 种 弹性 、 低 成 本 、 局 利用 率 、 透 明 的 并 能 满足 用 户 需求 的 服 
务 ， 它 采用 友好 的 Web 界 面 与 用 户 进行 交互 ， 提 供 数据 存储、 数据 保护 、 数 据 管理 等 
功能 ， 并 使 用 用 户 身 份 认证 机 制 来 验证 用 户 身份 的 真实 性 与 唯一 性 。 


云 仔 储 相关 的 概念 还 包括 云 存储 系统 、 云 存储 技术 、 云 存储 服务 等 ， 图 12-1 说 明 它 


们 之 间 的 关系 。 





12-1 存储 设备 、 云 存储 技术 、 云 存储 系统 、 云 存储 服务 的 关系 图 


云 存 储 系统 由 大 量 的 廉价 的 存储 设备 ( 一 般 为 普通 PC 服务 器 ) 组 成 ， 融 合 了 分 布 式 
存储 、 多 租户 共享 、 数 据 安 全 、 数 据 去 重 等 多 种 云 存 储 技术 ， 为 用 户 提供 灵活 的 、 
方便 的 、 按 需 分 配 的 云 存储 服务 。 可 以 看 出 ， 云 存储 技术 的 核心 在 于 分 布 式 存储 。 


在 大 数据 时 代 ， 个 人 用 尸 成 为 数据 的 主要 创造 者 ， 它 们 贡献 了 海量 的 用 户 行 为 数 


据 、 关 系数 据 、 无 线 互 联网 中 的 地 理 位 置 数据 、 交 易 数据 、 用 户 创造 内 容 (User 
Generated Content,UGC ) 等 。 这 些 数据 增长 很 快 ， 传 统 的 存储 技术 在 成 本 、 可 扩 
展 性 等 方面 都 无 法 满足 海量 数据 的 快速 增长 需要 。 云 存储 是 传统 存储 技术 在 大 数据 


时 代 自然 演进 的 结果 ， 相 比 传统 存储 ， 云 存储 具有 如 下 优势 。 
(1) 可 扩展 性 


传统 存储 不 具备 自动 扩展 能 力 ， 数 据 量 增加 时 ， 往往 要 求 管理 员 手 工 执行 大 量 的 管 
理 操 作 ， 比 如 重新 划分 数据 ， 停 机 拷贝 数据 等 才 可 以 加 入 新 的 存储 设备 。 


云 仓 储 具有 良好 的 扩展 性 ， 可 以 使 用 大 量 的 普通 存储 设备 ， 存 储 方 式 灵 活 多 样 ， 可 
以 根据 业务 需求 的 变化 、 用 户 的 增 减 和 资金 的 承受 能 力 ， 随 时 调整 仓储 方式 。 云 存 


储 只 需 对 虚拟 化 后 的 存储 资源 池 进 行 统一 的 管理 ， 即 可 实现 按 需 使 用 、 按 需 分 配 、 
按 需 维护 。 
(2) 利用 率 


传统 仓 储 对 资源 的 利用 率 非 钊 低 ， 对 人 储 资源 的 分 配 通 单 是 静态 的 ， 即 参考 用 户 的 
估计 值 对 存储 设备 划分 成 分 区 或 卷 ， 以 分 区 或 卷 为 单位 将 存储 资源 分 配给 用 户 。 由 
于 用 户 估 计 值 的 偏差 或 者 用 户 需 求 动 态 的 增 减 ， 这 样 的 分 配方 式 会 导致 一 部 分 存储 
资源 可 能 长 期 处 于 朵 置 状态 ， 而 这 些 朵 置 的 人 存储 资源 又 无 法 提供 给 其 他 用 户 。 


而 云 存 储 对 资源 的 利用 率 非 常 高 ， 因 为 云 存 储 采 用 动态 的 方法 分 配 人 存储 资 源 。 另 
外 ， 云 存储 对 资源 的 管理 也 十 分 的 弹性 ， 如 果 用 户 的 某 些 资源 处 于 朵 置 状 态 ， 云 存 
储 可 以 将 这 部 分 资源 进行 回收 ， 动 态 地 分 配给 需要 更 多 资源 的 用 户 。 


(3 ) 成 本 


传统 存储 的 投资 成 本 和 管理 成 本 都 十 分 昂贵 。 当 使 用 传统 存储 时 ， 有 时 很 难 提前 预 
测 业务 的 增长 量 ， 所 以 会 提前 采购 设备 ， 很 容易 造成 设备 的 浪费 ， 存 储 设备 并 不 能 
得 到 完全 使 用 ， 造 成 了 投资 瀛 费 。 另 外 ， 传 统 存储 的 管理 员 需 要 管理 多 种 类 型 的 存 
储 设备 ， 不 同 生产 厂商 生产 的 存储 设备 在 管理 方式 及 访问 方式 又 不 尽 相同 ， 因 此 管 
理 员 需要 对 各 种 产品 都 加 以 了 解 ， 增 加 了 管理 的 难度 及 人 员 的 开销 。 


而 云 存储 可 以 有 效 降 低 投 资 成 本 和 管理 成 本 。 云 存储 具有 很 好 的 可 伸缩 性 、 弹 性 和 
扩展 性 ， 可 以 灵活 扩容 、 方 便 升 级 ， 设 备 管 理 和 维护 也 非常 容易 。 云 存储 可 以 根据 
用 户 的 数量 和 存储 的 容量 ， 按 需 扩 容 ， 规 避 了 一 次 性 投资 所 市 来 的 风险 ， 降 低 了 投 
资 成 本 ; 云 存 储 通过 存储 虚拟 化 技术 ， 将 数量 众多 的 廉价 存储 设备 虚拟 化 ， 形 成 统 


一 存储 资源 池 ,管理 员 可 以 对 存储 资源 池 进 行 统一 的 管理 ， 最 大 幅度 的 降低 管理 成 
本 。 
( 4 ) 服务 能 力 


传统 存储 容易 出 现 由 意外 故障 而 导致 服务 中 止 的 现象 。 传 统 存储 将 业务 和 存储 相互 
对 应 ， 根 据 特定 的 业务 划分 相应 的 存储 设备 。 由 于 存储 设备 之 间 的 隔离 ， 如 果 某 人 台 
设备 出 现 意 外 故障 ， 业 务 就 会 中 止 ， 必 须 将 故障 修复 后 才能 恢复 业务 。 


而 云 仓储 则 采用 业务 迁移 、 数 据 备份 和 元 余 等 多 种 技术 来 保证 服务 的 正常 运行 ， 当 
某 个 存储 设备 发 生 故 障 时 ， 云 存储 会 根据 系统 目前 的 状态 ， 自 动 将 用 户 的 请 求 转移 
到 未 友 生 故障 的 存储 设备 上 。 发 生 故 障 的 存储 设备 恢复 后 ， 用 户 的 请 求 也 会 重新 转 
移 到 原 存 储 设备 ， 可 以 有 效 地 可 以 保证 服务 的 持续 性 。 


(5) 便携 性 


传统 存储 属于 本 地 存储 。 数 据 会 保存 在 本 地 的 存储 设备 中 ， 并 不 会 和 外 界 进行 互 


ER, 导致 数据 具有 较 差 的 便携 性 。 


而 云 存储 属于 托管 存储 。 云 存储 可 以 将 数据 传送 到 用 尸 选择 的 任何 媒介 ， 用 尸 可 以 
通过 这 些 媒介 访问 及 管理 数据 。 


12.2 云 存 储 的 产品 形态 


早 在 2886 年 3 月 ，Amazon 就 推出 了 针对 企业 的 S3 简 单 存 储 服 务 ( Amazon Simple 
Storage Service) ， 它 是 Amazon 云 计算 平台 (Amazon Web Service,AWS ) 的 一 
种 对 象 仓储 服务 ， 用 于 人 存储 照 上 请、 图片、 视频 、 音 乐 等 个 人 文件 。S3 被 认为 是 目前 
最 为 成 功 的 云 存 储 系统 ， 它 定义 的 云 存 储 应 用 编程 对 外 接口 (API ) Google 
Cloud Storage、 阿 里 云 开 放 人 存储 服务 (Open Storage Service,0SS ) 、 盛 大 云 
存储 等 国内 外 云 人 存储 系统 所 效仿 ， 成 为 业界 对 象 云 存 储 系统 的 事实 标准 。Amazon 
S3 以 桶 ( bucket ) 或 者 目录 为 单位 管理 对 象 ， 每 个 桶 包含 各 干 个 对 象 ( Object ) , 
每 个 对 象 可 以 是 照片 、 图 片 、 视 频 、 音 乐 等 个 人 文件 ， 支持 REST、SOAP 以 及 


BitTorrent 下 载 协议 。 
Amazon S3 的 应 用 编程 接口 如 下 : 


eList Bucket : 列 出 桶 中 所 有 的 对 象 。 每 次 操作 最 多 返回 1668 个 对 象 ， 如 果 桶 中 
元 素 超 过 1666 个 ， 可 以 将 前 一 次 获取 的 最 后 一 个 对 象 的 主键 作为 本 次 获取 的 起 始 
所， 和 直到 遍历 完成 。 另 外 ， 本 操作 还 支持 前 综 查 询 ， 即 只 列 出 桶 中 主键 前 缀 为 特定 
值 的 对 象 。 


ePut Bucket : 创建 一 个 桶 ， 创建 桶 时 可 以 选择 桶 所 在 的 数据 中 心 。 


eDelete Bucket : 删除 一 个 桶 ， 桶 删除 之 前 必须 确保 其 中 所 有 的 对 象 已 经 提前 被 删 


除 。 
eHead Bucket : 判断 桶 是 否 存在 上 且 具 有 访问 权限 。 


ePut Object : 创建 一 个 对 象 并 加 入 到 桶 中 或 者 修改 一 个 已 有 对 象 。 如 果 对 象 多 版 
本 策略 生效 ，S3 会 上 自动 为 每 个 新 建 对 象 生成 唯一 的 版 本 号 ， 同 一 个 对 象 可 能 存储 多 
个 版 本 。 


eGet Object : 读 取 对 象 的 数据 及 元 数据 ， 元 数据 包括 对 象 长 度 , MD5 哈 硕 值 ， 创 建 


时 间 等 。 

eDelete Object (s) : 删除 一 个 或 者 多 个 对 象 。 

eHead Object : 获取 对 象 的 元 数据 。 

S53 支持 几 GB 甚 至 上 TB 的 对 象 ， 如 果 对 象 过 大 ， 可 以 使 用 多 次 上 传 接口 : 


eInitial Multipart Upload : 初始 化 多 次 上 传 ， 获 取 多 次 上 传 的 编号 ( upload 
ID), 


eUpload Part: 上 传 部 分 数据 ， 每 次 请 求 都 要 膏 上 上 传 编 号 以 及 本 次 上 传 序号 
(part number), 。 如 果 前 后 两 次 上 传 的 序号 相同 ， 后 一 次 上 传 的 内 容 将 直接 履 盖 
前 一 次 上 传 的 内 容 。 


eComplete Multipart Upload : 完成 多 次 上 传 ，S3 会 将 之 前 上 传 的 部 分 数据 连接 
为 一 个 大 对 象 。 


eAbort Multipart Upload : 中 止 多 次 上 传 请 求 。 


用 户 可 以 将 本 地 的 文件 通过 Put 接 口上 传 到 云端 ， 如 果 文 件 大大， 可 以 分 多 次 上 传 ; 
用 尸 也 可 以 通过 Li st 方法 读 取 云端 某 个 桶 中 包含 的 所 有 文件 或 者 通过 Get 廊 法 读 取 
某 个 文件 。 另 外 ， 如 果 文件 太 大 ， 可 以 指定 读 取 的 数据 范围 ， 从 而 分 多 次 读 取 大 文 
件 。 


作为 AWS 的 存储 部 分 ，Amazon S53 云 存储 服务 针对 企业 和 程序 员 ， 需 要 自行 开发 使 用 
界面 ， 除 此 之 外 ， 云 仓储 还 可 以 以 单独 的 产品 形态 提供 给 个 人 用 户 ， 比 如 

Amazon “ 云 盘 ” (Amazon Cloud Drive) , 3£5RiCloud,Google 
Drive,Windows LiveSkyDrive,Dropbox , 金山 快 盘 等 ， 这 类 产品 称 为 个 人 云 和 存储 
产品 。 简 单 地 说 ， 个 人 云 人 存储 产品 主要 定位 是 用 来 仓储 个 人 文件 的 ， 而 且 从 电脑 到 
手机 ， 从 苹果 到 安 重 ， 个 人 云 仓 储 可 以 跨 平 台 ， 走 到 哪里 ， 都 能 访问 到 你 的 个 人 文 
件 ， 残 像 使 用 U 盘 这 么 简单 ， 但 又 无 须 随 时 携 珊 ， 更 不 用 担心 这 个 U 盘 会 丢失 。 相 比 
云 仔 储 平台 ， 个 人 云 存储 不 需要 专门 的 计算 实例 来 托管 应 用 程序 ， 个 人 用 户 可 以 通 
过 各 种 终端 设备 ， 如 PC 机 ， 平 板 电 脑 ， 智 能 手机 直接 访问 云 数据 中 心 的 存储 服务 ， 
将 终端 设备 中 的 个 人 数据 实时 同步 到 云 存 储 中 。 通 过 个 人 云 存储 服务 ， 可 以 实现 多 
个 终端 设备 之 间 数 据 同步 ， 数 据 分 享 ， 备 份 等 功能 。 


除了 个 人 云 存储 产品 ， 云 存储 也 经 常用 于 企业 的 数据 集中 备份 ， 存 档 。 中 小 企业 往 
往 没 有 自 建 云 存储 的 能 力 ， 内 部 数据 管理 也 比较 混乱 ， 通 过 企业 云 存 储 ， 可 以 省 去 
目 建 和 管理 的 麻烦 ， 并 提供 一 定 的 灾难 恢复 能 力 。 


最 后 ， 大 型 互联 网 服务 的 后 端 也 构建 在 互联 网 内 容 提 供 商 的 私有 云 存储 系统 之 上 ， 
Google,Amazon, Facebook,Taobao 等 互联 网 内 容 提供 商都 维护 了 各 自 的 私有 云 存 
储 系 统 。 云 存储 产品 形态 如 图 12 -2 所 示 。 


^* A zx fffiá ( Amazon Cloud 企业 云 存 储 ( 数据 备 下 联网 产品 海量 存储 ( Google 


Drive, Google Drive ^ ) 份 ， 数 据 归 档 等 ) Does, 社交 网 络 ， 微 捕 等 ) 


云 存 储 平台 (S3, Google Storage 等 ) 


云 存 储 系 统 ( Bigtable, Dynamo,Azure Storage 等 ) 





12-2 云 存 储 产 品 形态 

12.3 云 人 存储 技术 

云 存储 包含 两 个 部 分 : 云端 + 终端 。 云 端 指 统一 的 云 存 储 服务 端 ， 终 端 指 多 样 化 的 PC 
机 、 手 机 、 移 动 多 媒体 设备 等 终端 设备 。 云 存储 的 发 展 需要 云端 和 终端 里 面 的 多 种 
技术 的 支持 。 

( 1 ) 摩尔 定律 


摩尔 定律 一 直 推 动 着 整个 硬件 产业 的 发 展 ， 心 片 、 内 存 和 磁盘 等 硬件 设备 在 性 能 和 
容量 方面 也 得 到 了 极 大 的 提升 。 最 明显 的 例子 莫 过 于 CPU， 最 新 的 x86 心 片 在 性 能 上 
已 经 是 36 年 前 88686 的 1668 人 和信， 而 现在 手机 等 低能 耗 设备 的 ARM 心 片 在 性 能 上 比 过 去 
的 大 型 主机 的 芯片 都 强大 很 多 ， 同时 这 些 硬件 的 价格 也 比 过 去 更 便宜 。 此 外 ， 诸 如 
SSD、 万 兆 网 络 和 GPU 等 新 兴 技 术 的 出 现 也 极 大 地 推动 着 IT 产 业 的 发 展 。 


( 2) 宽 市 网 络 


公有 云 存储 是 一 个 多 区 域 分 布 ， 人 遍布 全 国 甚 至 遍布 全 球 的 庞大 的 公用 系统 ， 使 用 者 
需要 通过 ADSL 等 宽带 接 入 互联 网 。 由 于 ADSL 宽 带 的 发 展 和 光纤 入 户 的 不 断 普及 ， 现 


在 的 网 络 带宽 已 经 从 过 去 33 .6kbps 的 MODEM 拨 号 网 络 增长 到 平均 1IMbps 甚 至 
16Mbps， 再 加 上 无 线 网 络 和 移动 通信 的 不 断 发 展 ， 个 人 用 户 在 任何 时 间 、 任 何 地 点 
都 能 利用 互联 网 。 只 有 实现 随时 随地 快速 访问 互联 网 ， 才 能 真正 享受 云 存储 服务 ， 


否则 只 能 是 空谈 。 
( 3 ) Web 技 术 


Web 技 术 的 核心 是 分 享 。 只 有 通过 Web 技 术 ， 云 存储 的 使 用 者 才 可 能 通过 PC、 手 机 、 
移动 多 媒体 等 设备 ， 实 现 数 据 、 文 档 、 图 片 、 背 频 和 视频 等 内 容 的 集中 存储 和 资料 
共享 。 另 外 ， 随 着 类 似 AJAX、jQuery、Flash、Silverlight 和 和 HTML5 等 web 技术 的 
不 断 上 有 展 ，Chrome 和 Safari 等 功能 强大 的 浏览 器 的 不 断 涌 现 ，Web 已 经 不 再 是 简单 
的 页 面 ， 它 的 用 户 体验 已 经 越 来 越 接近 昌 面 上 应用。 这样 ， 用 户 只 需要 通过 互 耿 网 连 
过 到 云端 ， 就 可 以 享受 功能 强大 的 Web 应 用 提供 的 服务 。 


(4 ) 移动 设备 


随 着 苹果 的 i0S 和 Goog1le 的 Android 这 类 智能 手机 系统 的 不 断 友 展 和 普及 ， 诸 如 手机 
这 样 的 移动 设备 已 经 不 下 是 一 个 移动 电话 而 已 ， 更 是 一 个 完善 的 信息 终端 。 通 过 它 
1i] , 可 以 轻松 访问 互联 网 上 的 信息 和 应 用 。 由 于 移动 设备 整体 功能 也 越 来 越 接 近 台 
式 机 ， 通 过 这 些 移动 设备 ， 能 够 随时 随地 访问 云 存 储 服务 。 另 外 ， 移 动 设备 价格 较 
(F, 而且 降 价 较 快 ， 用 户 可 能 同时 拥有 多 个 移动 设备 且 需 要 经 常 更 换 ， 云 存储 很 好 
地 解决 不 同 移动 设备 之 间 的 数据 共享 问题 。 


(5) 分 布 式 存储 、CDN、P2P 技 术 


云 存储 系统 由 多 个 存储 设备 构成 ， 不 同 存 储 设备 之 间 需 要 通过 分 布 式 存 储 ，CDN.、 
P2P 等 分 布 式 技术 ， 实 现 多 个 存储 设备 之 间 的 协同 工作 ， 使 多 个 存储 设备 可 以 对 外 提 


供 同一 种 服务 ， 并 提供 更 好 的 数据 访问 性 能 。 如 果 没 有 这 些 拉 术 ， 和 存储 系统 只 能 是 
一 个 一 个 独立 的 系统 ， 不 能 形成 云 状 结构 ， 也 丈 没 有 云 存 储 。 另 外 ，CDN ( Content 
Delivery Network ) 以 及 P2P 等 技术 保证 云 中 的 图 片 ， 视 频 等 文件 能 够 被 快 速 访 
问 ， 并 且 闻 约 云 存储 服务 提供 商 的 市 宽 成 本 。 


(6 ) 数据 加 密 、 云 安全 


数据 加 密 及 其 他 云 安全 技术 保证 云 仓储 中 的 数据 不 会 被 未 授权 的 用 尸 所 访问 ， 同 
时 ， 通过 各 种 数据 备份 和 容 灾 技术 保证 云 存 储 中 的 数据 不 会 去 失 。 如 果 云 存储 中 的 
数据 安全 得 不 到 保证 ， 没 有 人 会 选择 云 仔 储 。 


12.4 云 人 存储 的 核心 优势 


作为 云 计算 的 存储 部 分 ， 云 存储 的 核心 优势 与 云 计算 相同 。 主 要 包括 两 个 方面 : 最 
大 程度 地 节省 成 本 以 及 加 快 创新 速度 。 


全 球 企业 IT 开 销 ， 分 为 三 个 部 分 : 硬件 开销 、 能 耗 以 及 管理 成 本 。 其 中 硬件 开销 包 
括 存 储 、 计 算 服 务 器 以 及 网 络 市 宽 成 本 。 由 于 摩尔 定律 的 作用 ， 硬 件 成 本 越 来 越 
低 ， 而 能 耗 以 及 管理 成 本 所 占 比例 相应 地 变 得 越 来 越 高 了 。 


根据 James Hamilton 的 数据 ， 一 个 拥有 5 万 个 服务 器 的 特大 型 数据 中 心 与 拥有 1666 
个 服务 器 的 中 型 数据 中 心 相 比 ， 特 大 型 数据 中 心 的 网 络 和 存储 成 本 只 相当 于 中 型 数 
据 中 心 的 1/5 或 者 1/7， 而 每 个 管理 员 能 够 管理 的 服务 器 数量 则 扩大 到 7 倍 之 多 。 

而 ， 对 于 规模 达到 几 十 万 至 上 百 万 计算 机 的 云 存 储 平台 而 言 ， 其 网 络 、 存 储 和 管理 
成 本 较 之 中 型 数据 中 心 至 少 可 以 降低 5 ~ 7 倍 ， 如 表 12-1 所 示 。 


R 12-1 中 型 数据 中 心 与 特大 型 数据 中 心 的 成 本 比较 


类 别 中 型 数据 中 心 成 本 特大 型 数据 中 心 成 本 k — x 


网 络 $95 / Mb/ 月 74 


存储 $2.20/GB/ 月 $0.40/GB/ 月 5.7 





管理 140 SIEI fir /管理 员 1000 台 以 上 服务 器 /管理 员 7.1 


电力 和 制冷 成 本 也 会 有 明显 的 差别 。 例 如 ， 美 国 爱 达 和 荷 州 的 电力 资源 丰富 ， 电 价 很 
便宜 。 而 夏威夷 是 岛屿 ， 本 地 没有 电力 资源 ， 电 力 价格 就 比较 贵 ， 二 者 相差 5 倍 ， 如 
表 12-2 所 示 。 


X 12-2 美国 不 同 地 区 电力 价格 的 差异 


3.6 美 分 水 力 发 电 ， 没 有 长 途 输送 
10.0 美 分 加 州 不 允许 煤 电 ， 电 力 需 在 电网 上 长 途 输送 
18.0 美 分 Az f KS BE UG s ERE RU SS E 





PUE ( Power Usage Effectiveness , 能源 使 用 效率 ) 用 来 衡量 数据 中 心 的 能 源 效 
率 ， 等 于 数据 中 心 所 有 设备 能 耗 ( 包括 IT 电源 ， 冷 却 等 设备 ) /IT 设备 能 耗 。PUE 是 
一 个 比率 ， 基准 是 2， 越 接近 1 表明 能 效 水 平 越 好 。 国 内 很 多 中 型 数据 中 心 的 PUE 值 大 
于 2， 也 束 是 说 ， 一 半 以 上 的 能 源 被 日 日 沪 费 挥 ， 而 特大 型 数据 中 心 ， 比 如 
Facebook 某 太阳 能 供电 数据 中 心 的 PUE 值 为 1.967， 几 乎 没有 额外 的 能 源 损 耗 。 


云 存储 的 规模 效应 能 够 大 大 地 降低 IT 成 本 。 当 然 ， 我 们 国家 的 情况 有 些 特殊 ， 比 如 
电价 全 国 统一 ， 人 力 成 本 相对 较 低 ， 运 强 商 全 断 导 致 网 络 市 宽 成 本 侦 高 ， 上 自 建 数据 
中 心 也 有 各 种 政策 因素 ， 云 存储 市 来 的 成 本 优势 虽 比 不 上 美国 但 仍然 是 巨大 的 。 


再 者 ， 云 存储 与 传统 存储 相 比 ， 资 源 的 利用 率 也 有 很 大 的 不 同 。 传 统 存储 对 资源 的 
利用 率 非常 低 ， 对 存储 资源 的 分 配 通 常 是 静态 的 ， 即 参考 用 户 的 估计 值 对 存储 设备 
划分 成 分 区 或 卷 ， 以 分 区 或 卷 为 单位 将 仓储 资源 分 配给 用 户 ， 相 应 的 网 络 和 CPU 资源 


也 是 固定 的 。 然 而 ， 绝 大 多 数 网 站 的 访问 流量 都 不 是 均衡 的 ， 例 如 ， 有 的 网 站 时 间 
性 很 强 ， 和 白天 访问 的 人 少 ， 到 了 晚上 8 点 到 16 点 就 会 流量 暴涨 ， 典 型 的 例子 是 电子 商 
务 网 站 ; 有 的 网 站 季节 性 很 强 ， 平 时 访问 人 不 多 ， 但 是 到 国庆 节 ， 春 节 的 访问 量 就 
很 大 ， 典 型 的 例子 是 铁道 部 火车 票 预订 网 站 ; 有 的 网 站 突 发 性 很 强 ， 典 型 的 例子 是 
微 博 开放 平台 上 的 外 部 应 用 。 网 站 拥有 者 为 了 应 对 这 些 突 发 流量 ， 需 要 按照 峰值 要 
求 来 购买 服务 器 和 网 络 带 宽 ， 造 成 资源 的 平均 利用 率 很 低 。 例 如 ， 淘 宝 网 在 2611 年 
11 月 11 日 “ 双 11” 促 销 活动 时 CDN 流 量 最 高 达到 826G， 是 平常 的 很 多 倍 。 云 存储 通 
过 共享 的 方式 提供 弹性 的 服务 ， 它 根据 每 个 租用 者 的 需要 在 一 个 超大 的 资源 池 中 动 
态 分 配 和 释放 资源 ， 而 不 需要 为 每 个 租用 者 预 留 峰值 资源 。 由 于 云 存储 的 规模 极 
大 ， 其 租用 者 数量 非常 多 ， 支撑 的 应 用 种 类 也 是 五 花 八 门 ， 通 过 这 种 错 峰 效 应 ， 资 
源 利用 率 可 以 达到 8e% 左 右 ， 是 传统 模式 的 5 ~ 715. 


综 上 所 述 ， 由 于 云 存 储 更 低 的 硬件 成 本 和 网 络 成 本 ， 更 低 管理 成 本 和 电力 成 本 ， 以 
及 更 高 的 资源 利用 率 ，Google,Amazon,Microsoft 等 互联 网 巨头 能 够 通过 从 数据 中 
心 开 始 构建 整套 公有 云 存 储 解决 方案 达到 节省 36 倍 以 上 成 本 的 目的 。 


在 我 国 ， 由 于 政府 政策 及 技术 实力 等 问题 ， 大 多 数 企 业 不 可 能 从 头 开始 构 建 完整 的 
云 存储 方案 ， 然 而 ， 当 企业 发 展 到 一 定 的 规模 后 ， 仍 然 可 以 通过 云 存储 技术 降低 成 
本 ， 原 因 如 下 : 


e 由 于 云 存 储 技术 的 容错 能 力 很 强 ， 使 得 我 们 可 以 使 用 低 端 硬件 替代 高 端 硬件 ， 如 采 
普通 PC 服务 器 替代 EMC 高 端 存储 以 及 IBM 小 型 机 。 另 外 ， 可 以 通过 对 云 存 储 系统 不 
新 的 优化 来 降低 硬件 成 本 和 能 耗 。 


se 在 保证 服务 质量 的 前 提 下 ， 通 过 云 存 储 调度 技术 将 用 尸 的 请 求 调度 到 网 络 市 宽 费 用 
较 低 的 数据 中 心 ， 从 而 降低 整体 网 络 市 宽 成 本 。 


e 云 人 存储 技术 的 管理 时 高 度 自动 化 的 ， 极 少 需要 人 工 干 预 ， 可 以 大 大 降低 管理 成 本 。 


e 云 仓储 技术 的 核心 理念 是 多 租户 共享 ， 多 个 业务 共享 相同 的 资源 池 ， 每 个 业务 动态 
分 配 和 释放 资源 ， 提 高 资源 利用 率 。 


云 人 存储 的 另外 一 个 核心 优势 残 是 加 快 创新 速度 。 云 仓储 通过 提供 海量 的 数据 存储 和 
处 理 能 力 ， 使 得 用 户 不 必 关 心底 层 基 础 设施 的 可 扩展 性 ， 突 发 流量 处 理 等 复杂 的 系 
统 架 构 问 题 ， 将 有 限 的 精力 集中 在 最 核心 的 创新 业务 上 ， 使 得 创新 想法 很 快 得 到 实 
现 ， 大 大 地 提高 了 创新 速度 。 由 于 云 平台 的 存在 ,加 上 移动 互联 网 的 重大 机 遇 ， 大 
量 创业 公司 得 以 迅速 兴起 ， 许 多 美国 当前 热门 公司 ， 例 如 Pinterest、Dropbox、 
Instagram, Reddit, Zynga , 都 构架 在 Amazon 的 云 平 台 ( Amazon Web 
Service,AWS ) 之 上 。 比 如 ，26812 年 4 月 以 16 亿 美元 ( 因为 大 部 分 是 股票 ， 实 际 价 
值 可 能 更 高 ) 被 Facebook 收 购 的 Instgram， 其 技术 方案 大 量 采 用 Aws ( 主机 选择 
Amazon EC2， 图 片 数 据 库 采用 Amazon S3 ，CDN 选 用 Amazon CloudFront 等 ) 。 所 
以 虽然 Instgram 只 有 13 名 员工 ( 工程 团队 仅 3 人 ) ， 却 构建 了 最 强大 的 移动 咒 图 片 
分 享 平台 ， 甚 至 让 Facebook 感 到 了 威胁 。 


今天 ， 一 个 普通 的 技术 人 员 可 以 短 时 间 内 借助 云 存 储 平台 ,拥有 和 巨人 对 手 们 相同 
的 计算 人 资源， 实现 梦想 ， 这 才 是 云 存 储 平台 的 真正 价值 所 在 。 我 们 需要 共同 为 之 努 
力 。 


12.5 云 平台 整体 架构 


云 存储 是 云 计算 的 存储 部 分 ， 理 解 云 存储 架构 的 前 提 是 理解 云 平台 整体 架构 。 云 计 
算 按照 服务 类 型 大 致 可 以 分 为 三 类 : 基础 设施 即 服 务 ( Iaas ) 、 平 台 即 服务 
( Paas ) 以 及 软件 即 服务 ( SaaS) ， 如 图 12 -3 所 示 。 


软件 即 服务 


SaaS(Software as a Service) 


Salesforce online CRM 


Google Apps 


平台 即 服务 


; ] ol Google App Engine 
PaaS(Platform as a Service) ; : s 
Microsoft Azure Platform 


基础 设施 即 服务 


Amazon EC2 
LaaS(Infrastructure as a Service) 





12-3 云 计 算 服 务 类 型 


IaaS 将 硬件 设备 等 基础 资源 以 虚拟 机 的 形式 封装 成 服务 供用 户 使 用 ,如 Amazon 云 计 
算 AWS ( Amazon Web Service ) 的 弹性 计算 云 EC2，PaaSs 进 一 步 抽 象 硬件 资源 ， 提 
供用 户 应 用 程序 的 运行 环境 ， 开 友 者 只 需要 将 应 用 程序 提交 给 Paas 平 台 ，Paas 平 台 
会 目 动 完 成 程序 部 署 ， 处 理 服 务 器 故障 ， 扩 容 等 问题 ， 典 型 的 如 (Google App 
Engine) GAE。 另 外 ， 微 软 的 云 计 算 平台 Windows Azure Platform 也 可 大 致 归 入 
这 一 类 。SaaSs 的 针对 性 更 强 ， 它 将 某 些 特定 应 用 软件 封 转 成 服务 ， 如 Salesforce 公 
司 提供 的 在 线 客户 端 管理 CRM 服 务 ，Goog1e 的 企业 应 用 套件 6oogle Apps 等 。 


本 节 首 先 分 别 介 绍 Amazon、Google 以 及 Microsoft 这 三 个 云 平 台 的 整体 架构 ， 其 
中 ，Amazon 提 供 IaaS 服 务 ，Google 和 Microsoft 提 供 PaaSs 服 务 ， 接 着 介绍 一 般 情 


况 下 云 平台 的 整体 架构 。 
12.5.1 Amazon 云 平台 


Amazon Web Services ( AWS ) 是 Amazon 构 建 的 一 个 云 计算 平台 的 总 称 ， 它 提供 了 
一 系列 云 服 务 。 通 过 这 些 服务 ， 用 户 能 否 访问 和 使 用 Amazon 的 存储 和 计算 基础 设 
施 。 如 图 12-4 所 示 ，AWS 平 台 分 为 如 下 几 个 部 分 : 


MyWebSite.com 


(y. DNS 


CloudFront AWS 弹性 负载 均衡 CloudFront 


CloudFront TET ee CloudFront 
Auto Scaling Auto Scaling 
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12-4 ANS 平 台 整 体 架 构 


ee 计算 类 : 核心 产品 为 弹性 计算 云 EC2 (Elastic Computing) 。EC2 几 乎 可 以 认为 
是 迄今 为 止 云 计算 领域 最 为 成 功 的 产品 ， 通俗 地 讲 ， 就 是 提供 虚拟 机 ， 用 户 的 应 用 
程序 部 署 在 EC2 实 例 中 。EC2 架 构 的 核心 是 弹性 伸缩 ， 当 托管 的 应 用 程序 访问 量变 化 
时 能 够 自动 增加 或 者 减少 EC2 实 例 ， 并 通过 弹性 负载 均衡 技术 将 访问 请 求 分 发 到 新 增 
的 EC2 实 例 上 。 在 计 费 模式 上 ，EC2 按 照 使 用 量 计 费 ， 而 不 是 采用 传统 的 预付 费 方 
式 。EBS (Elastic Block Store) 是 一 个 分 布 式 块 设 备 ， 可 以 像 本 地 的 磁盘 一 样 
直接 挂 载 在 ECc2 实 例 上 ， 与 本 地 磁盘 不 同 的 是 ， 保 存 到 EBS 的 数据 会 由 EBS 的 管理 节 
点 自动 复制 到 多 个 存储 节点 上 。EC2 实 例 的 本 地 存储 是 不 可 靠 的 ， 如 果 EC2 实 例 出 现 


故障 ， 本 地 存储 上 保存 的 数据 将 会 丢失 ， 而 保存 到 EBS 上 的 数据 不 会 丢失 。EBS 用 于 
蔡 代 EC2 实 例 的 本 地 人 存储， 从 而 增强 EC2 可 靠 性 。 


e 人 存储 类 : 存储 类 产品 较 多 ， 包 括 简单 对 象 存 储 S3， 表 格 存储 系统 SimpleDB、 
DynamoDB、 分 布 式 关 系数 据 库 服务 (Relational Datastore Service,RDS ) 以 
及 简单 消息 存储 (Simple Queue Service,SQS ) 。S3 用 于 存储 图 片 、 照 片 、 视 频 
等 大 对 象 ， 为 了 提高 访问 性 能 ，S3 中 的 对 象 还 能 够 通过 CloudFront 缓 存 到 不 同 地 理 
位 置 的 内 容 分 发 网 络 ( Content Delivery Network,CDN ) 节点 。SimpleDB 和 
DynamoDB 是 分 布 式 表格 系统 ， 支 持 对 一 张 表格 进行 读 写 操作 ; RDS 是 分 布 式 数据 
库 ， 目 前 支持 MySQL 以 及 Oracle 两 种 数据 库 。SQs 主 要 用 于 支持 多 个 任务 之 间 的 消息 
传递 ， 解 除 任务 之 间 的 耦合 ， 相 当 于 传统 的 消息 中 间 件 (Message Queue) 。 为 了 
提高 访问 性 能 ， 可 以 使 用 ElasticCache 缓 人 存 人 存储 系统 中 的 热点 数据 。 


e| Ek : AWS 支 持 多 种 开发 语言 ， 提 供 Java、Ruby、Python、PHP、Windows 
& .NET 以 及 Android 和 ios 的 工具 集 。 工 具 集 中 包含 各 种 语言 的 SDK、 程 序 自 动 部 署 
以 及 各 种 管理 工具 。 另 外 ，AWSs 通 过 Cloudwatch 系 统 提供 丰富 的 监控 功能 。 


ANS 平 台 引 入 了 区 域 ( Zone ) 的 概念 。 区 域 分 为 两 种 : 地 理 区 域 ( Region Zone) 
和 可 用 区 域 (Availability Zone) ， 其 中 地 理 区 域 是 按照 实际 的 地 理 位 置 划分 
的 ， 而 可 用 区 域 一 般 是 按照 数据 中 心 划 分 的 。 


假设 网 站 MywWebsite. com 托管 在 AWS 平 台 的 某 个 可 用 区 域 中 。AWs 开 发 者 将 Web 应 用 
上 传 到 AWs 平 台 并 部 署 到 指定 的 EC2 实 例 上 。EC2 实 例 一 般 分 成 多 个 自动 扩展 组 
(Auto Scaling Group )， 并 通过 弹性 负载 均衡 (Elastic Load Balancing) 
技术 将 访问 请 求 自动 分 发 到 自动 扩展 组 内 的 EC2 实 例 。 开 发 者 的 Web 应 用 可 以 使 用 
AWS 平 台 上 的 存储 类 服务 ， 包 括 S3、SimpleDB、DynamoDB、RDS 以 及 SQSs。 


网 站 上 往往 有 一 些 大 对 象 ， 比 如 图 片 、 视 频 ， 这 些 大 对 象 存储 在 S3 系 统 中 ， 并 通过 
内 容 分 发 技术 缓存 到 多 个 CloudFront 节 点 。 当 Internet 用 户 浏览 MyWwebSite .com 
Hj , 可 能 会 请 求 53 中 的 大 对 象 ， 这 样 的 请 求 将 通过 DNS 按 照 一 定 的 策略 定位 到 
CloudFront 节 点 。CloudFront 首 先 在 本 地 缓存 节点 查找 对 象 ， 如 果 不 存 在， 将 请 
求 源 站 获取 Ss3 中 存储 的 对 象 数 据 ， 这 一 步 操 作 称 为 回 源 。 


12.5.2 Google 云 平台 


Google 云 平台 (Google App Engine,GAE ) 是 一 种 Paas 服 务 ， 使 得 外 部 开发 者 可 
以 通过 Goog1le 期 望 的 方式 使 用 它 的 基础 设施 服务 ， 目 前 支持 Python 和 Java 两 种 语 
言 。GAE 虽 然 在 产品 上 相 比 Amazon 云 平台 还 有 较 大 的 差距 ， 但 在 撤 术 上 是 成 功 的 ， 

尤其 适用 于 企业 构建 自己 的 企业 私有 云 。GAE 的 整体 架构 如 图 12-5 所 示 。 
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12-5 Google App Engine 整 体 架 构 
GAE 云 平台 主要 包含 如 下 几 个 部 分 : 


e 前 端 服务 器 。 前 端的 功能 包括 负载 均衡 以 及 路 由 。 前 端 服务 器 将 静态 内 容 请 求 转发 
到 和 静态 文件 服务 器 ， 将 动态 内 容 请 求 转 友 到 应 用 服务 器 。 


e 应 用 服务 器 。 应 用 服务 器 妆 载 应 用 的 代码 并 处 理 接收 到 的 动态 内 容 请 求 。 


e 应 用 管理 节操 (App Master) 。 调 度 应 用 服务 器 ， 将 应 用 服务 器 的 变化 通知 前 
端 ， 从 而 前 端 可 以 将 访问 流量 切换 到 正确 的 应 用 服务 器 。 


e 存 储 区 。 包 括 Datastore、MemCache 以 及 Blobstore 三 个 部 分 。 应 用 的 持久 化 数 


据 主 要 存储 在 Datastore 中 ，MemCache 用 于 缓存 ,Blobstore 是 Datastore 的 一 种 
补充 ， 用 于 存储 大 对 象 。 


e 服 务 区 。 除 了 必 备 的 应 用 服务 器 以 及 存储 区 之 外 ，GAE 还 包含 很 多 服务 ， 比 如 图 像 
处 理 服 务 (Images). 、 邮 件 服 务 、 抓 取 服 务 (URL fetch). 、 任 务 队列 ( Task 
Queue ) 以 及 用 户 服 务 ( Users ) 等 。 


另外 ， 作 为 Paas 服 务 ，GAE 还 提供 了 如 下 两 种 工具 : 


e@ 本 地 开发 环境 。GAE 中 大 量 采 用 私有 API， 因 此 专门 提供 了 本 地 开发 和 调试 的 
Sandbox 环 境 以 及 SDK 工 具 。 


e 管 理工 具 。GAE 提 供 web 管 理工 具 用 于 管理 应 用 并 监控 应 用 的 运行 状态 ， 比 如 资源 
消耗 、 应 用 日 志 等 。 


GAE 的 核心 组 件 为 应 用 服务 器 以 及 存储 区 ， 其 中 ， 应 用 服务 器 用 于 托管 GAE 平 台 用 户 
的 应 用 程序 ， 存储 区 提供 云 存储 服务 。 下 面 分 别 介绍 这 两 个 部 分 。 


1. 应 用 服务 器 


GAE 对 外 不 提供 虚拟 机 服务 ， 因 此 ， 对 于 不 同 的 开发 语言 ， 需要 提供 不 同 的 应 用 服务 
器 实现 ， 目 前 支持 Python 和 Java 两 种 语言 。 每 一 台 应 用 服务 器 可 能 运行 多 个 GAE 平 
人 台 用 户 的 应 用 ， 为 了 防止 应 用 程序 之 间 互 相干 扰 ， 应 用 程序 将 在 受 限制 的 “ 阔 

盒 ”环境 中 运行 。“ 阔 使” 环境 中 的 GAE 应 用 程序 无 法 执行 以 下 操作 : 


e 写 入 到 本 地 文件 系统 。 应 用 程序 必须 使 用 数据 仓储 区 来 仓储 持久 化 数据 。 


e 打 开 套 接 字 或 者 直接 访问 其 他 主机 。 应 用 程序 必须 使 用 网 址 提取 服务 ( URL 


Fetch ) 分 别 从 端口 88 和 443 上 的 其 他 主机 有 出 HTTP 和 HTTPS 请 求 。 


e 生 成 子 进 程 或 者 线程 。 应 用 程序 的 网 络 请 求 必 须 在 单个 线程 中 处 理 ， 并 且 必 须 企 几 
秒 内 完成 ，GAE 会 目 动 终止 啊 应 时 间 很 长 的 进程 以 免 应 用 服务 器 过 载 。 


e 进 行 其 他 类 型 的 系统 调用 。 
2 .存储 区 


Datastore 是 App Engine 人 存储 区 的 核心 ， 底 层 为 6.2 节 中 介绍 的 Google 
Metastore 系 统 。 与 关系 数据 库 最 大 的 不 同 点 在 于 ，Datastore 支 持 自动 增加 或 者 
减少 存储 节点 ， 提 供 线性 扩展 能 力 。App Engine 和 直接 将 开源 的 Memcache 用 作 绥 存 
服务 ， 缓 存 Datastore 中 的 热点 数据 。Datastore 不 适合 仓储 大 对 象 ( Blob 对 
象 ) ， 因 此 ，App Engine 设 计 了 专门 的 Blobstore 用 于 支持 大 对 象 存 储 。 


除了 GAE 平 台 ， Goog1le 还 单独 提供 了 两 种 云 存 储 服 务 ，Google Cloud Storage 以 
及 Google Cloud SQL。 其 中 ，Google Cloud Storage 与 Amazon S53 类 似 ， 用 于 存 
储 图 片 、 视 频 等 大 对 簿 数据，Google Cloud SQL 与 Amazon RDS 类 似 ， 用 于 提供 分 
布 式 关 系数 据 库 服 务 。 


12.5.3 Microsoft 云 平台 


Windows Azure Platform 是 一 个 服务 平台 ， 用 户 利用 该 平台 ， 通过 互联 网 访问 和 
软 数据 中 心 的 计算 和 存储 服务 ， 它 不 但 支持 传统 的 微软 编程 语言 和 开发 平台 ， 如 C# 
和 和 .NET 平台 ， 还 支持 PHP、Python、Java 等 多 种 非 微软 编程 语言 和 架构 。 


WindowsAzure 平 台 包 含 如 下 几 个 部 分 。 


。 计 算 服 务 


\ 一 /一 


Windows Azure 平 台中 每 个 计算 实例 是 一 个 运行 着 64bit 的 Nindows Server 2008 
的 虚拟 机 ， 分 为 三 种 类 型 : Web Roleski], worker Role 实例 和 VM Role 实例 。 其 
中 ，Web Role 实例 提前 在 内 部 安 半 了 IIS7， 用 于 托管 Azure 平 台 用 户 的 Web 应 用 程 
FF ; Worker Role 实例 设计 用 来 运行 各 种 各 样 的 基于 Windows 的 代码 ， 例 如 ， 
Worker Role 实例 可 以 运行 一 个 模拟 程序 、 进 行 视频 处 理 等 ，Worker Role 与 Neb 
Role 的 不 同 点 在 于 ，Worker Role 内 部 并 没有 安 疼 IIS。 一 般 来 训 ， 用 户 只 会 用 到 
Web Role 和 Worker Role。 应 用 通过 Web Role 与 用 户 相 互 作 用 ， 然 后 利用 Norker 
Role 进行 任务 处 理 。 当 用 户 需要 将 本 地 的 Windows Server 应 用 移动 到 Windows 
Azure 平 台 时 ，VM Role 将 会 起 作用 。VM Role 除了 允许 对 环境 拥有 更 多 的 控制 权 之 
外 ， 它 和 Web Role 以 及 Worker Role 是 没有 区 别 的 。 与 Amazon 云 平台 需要 用 户 提供 
虚拟 机 的 虚拟 映像 文件 不 同 的 是 ，Azure 平 台 会 自动 虚拟 出 虚拟 机 ， 处 理 虚 拟 机 升 
级 ，Role 实 例 故 障 ，Azure 平 台 用 户 只 需要 专注 于 如 何 创建 应 用 程序 即 可 。 


e 和 存储 服务 


Windows Azure 存 储 服务 包括 Azure Blob,Table,Queue 以 及 SQL Azure。 其 中 ， 
Azure Blob 和 存储 二 进 制 数据 ， 如 图 片 ， 照 片 ， 视 频 等 个 人 文件 。Azure Table 和 存储 
更 加 结构 化 的 数据 ， 支 持 单 张 表 格 上 的 操作 ， 但 是 它 不 同 于 关系 数据 库 系 统 中 的 二 
维 关 系 表 ， 查 询 语 言 也 不 是 大 家 熟悉 的 关系 查询 语言 SQ8L。Azure Queue 的 作用 和 微 
软 消息 队列 ( MSMQ ) 相近 ， 用 来 支持 在 Windows Azure 应 用 程序 组 件 之 间 进 行 通 
信 。SQL Azure 则 是 将 微软 的 关系 数据 库 SQL Server 搬 到 云 环 境 中 ， 提 供 二 维 关 系 
表 和 SQL 查询 语言 。 为 了 提高 访问 性 能 ，Windows Azure 还 提供 了 两 种 缓 仔 机 制 : 
Azure Caching 以 及 Azure 内 容 分 友 网 络 ( CDN) , Azure Caching 在 数据 中 心 内 部 
缓存 热点 数据 ，Azure CDN 在 离 用 户 较 近 的 “边缘 节点 ”缓存 Azure Blob 中 的 Blob 
对 象 。 


Windows Azure 连 接 服 务 包括 Azure Service Bus 以 及 Azure Connect, Azure 
Service Bus 包含 三 个 部 分 : Service Bus Queue,Service Bus Topic 和 
Service Bus Relay。 其 中 , Service Bus Queue 和 Service Bus Topic 与 消息 
中 间 件 的 Queue 和 Topic 模 式 类 似 ， 用 于 解除 应 用 程序 之 间 的 耦合 。Service Bus 
Queue 提 供 点 对 点 的 通信 ， 保证 每 个 友 送 者 产生 的 消息 只 被 一 个 接收 者 获取 ; 
Service Bus Topic 提 供 一 对 多 的 上 友 布 订阅 通信 ， 每 个 发布 者 友 布 的 消息 能 被 所 有 
的 订阅 者 获取 。Service Bus Relay 使 得 Azure 平 台 服 务 器 端 可 以 访问 运行 在 企业 
内 部 的 本 地 wCF 服 务 ， 这 些 NCF 服 务 通 弟 没 有 一 个 固定 的 IP 地 址 ， 而 且 被 企业 防火 墙 
所 保护 。Azure Connect 在 Windows Azure 应 用 和 本 地 运行 的 机 器 之 间 建 立 一 个 基 
于 IPsec 协 议 的 连接 ， 使 得 两 者 更 容易 结合 起 来 使 用 。 例 如 ， 某 个 企业 需要 将 现 有 的 
由 ASP. NET 创建 的 Windows Server 应 用 移动 到 Nindows Azure Web Role 中 区 ， 如 
果 这 个 应 用 使 用 的 数据 库 需 要 保留 在 本 地 机 器 上 ， 那 么 Azure Connect 技 术 能 够 使 
运行 在 Windows Azure 上 的 应 用 正常 访问 本 地 数据 库 ， 甚 至 连 使 用 的 连接 字符 串 都 


e 工 具 支 持 


Windows Azure 平 台 不 但 支持 传统 的 微软 编程 语言 和 开发 平台 如 C#0. NET 平台 ,还 
支持 PHP、Python、Java、node . js 等 多 种 非 微软 编程 语言 和 架构 。Azure 平 台 提 供 


各 种 语言 的 SDK 以 及 平台 管理 工具 。 


图 12 -6 显示 了 Windows Azure Platform 用 于 托管 用 户 Web 程 序 的 整体 架构 。 假 设 
网 站 MyWebSsite. com 托管 在 Windows Azure 平 台 的 某 个 数据 中 心 内 。Azure 平 台 开 
发 者 将 Web 应 用 上 传 到 Azure 平 台 ， 由 平台 将 应 用 自动 部 署 到 Role 实 例 上 。 在 Azure 


内 部 ， 一 个 应 用 可 能 运行 在 一 个 或 者 多 个 Role 实例 上 ， 将 运行 同一 个 应 用 的 Role 实 
例 成 为 一 个 Role 实例 组 ， 并 通过 负载 均衡 器 将 访问 请 求 按照 一 定 的 策略 自动 分 友 到 
其 中 的 Role 实例 。 开 发 者 的 web 应 用 可 以 使 用 Azure 平 台 上 的 存储 类 服务 ， 包 括 
Azure Blob、Table、Queue 以 及 SQL Azure。 为 了 提高 性 能 ， 应 用 也 可 以 使 用 
Azure Caching 缓 仓 热点 数据 ， 束 像 使 用 Memcache 一 样 。 
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网 站 上 往往 有 一 些 Blob 对 象 ， 比 如 图 片 、 视 频 ， 这 些 对 象 存储 在 Azure Blob 系 统 
中 ， 并 通过 内 容 分 友 技 术 缓 存 到 多 个 Azure CDN 节 点 。Internet 用 户 访问 
MyWebSite.com 中 的 Blob 时 ， 访问 请 求 将 通过 DNS 定 位 到 CDN 节点 上 ， 如果 CDN 绥 存 
了 Blob 的 副本 ， 直 接 将 副本 返回 给 用 户 ， 否则，CDN 节 点 将 请 求 Azure 源 站 中 的 


Azure Blob 和 存储 系统 获取 Blob 对 象 ， 这 一 步 操 作 称 为 回 源 。 


12.5.4 云 平台 架构 


从 托管 web 应 用 程序 的 角度 看 ， 云 平台 主要 包括 云 存 储 以 及 应 用 运行 平台 ，, 如 图 12- 


7 所 示 。 
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云 平台 的 核心 组 件 包 括 : 云 存储 组 件 和 应 用 运行 平台 组 件 。 下 面 简单 介绍 一 下 。 
(1) 云 存 储 组 件 


云 人 存储 组 件 包括 两 层 : 分 布 式 存储 层 以 及 存储 访问 层 。 分 布 式 存储 层 管理 存储 服务 
器 集群 ,实现 各 个 存储 设备 之 间 的 协同 工作 ， 保 证 数据 可 靠 性 ， 对 外 屏 菩 数据 所 在 
位 置 ， 数 据 迁 移 ， 数 据 复制 ， 机 器 增 减 等 变化 ， 使 得 整个 分 布 式 系统 看 起 来 像 是 一 
台 服 务 器 。 分 布 式 存储 层 是 云 存 储 系 统 的 核心 ， 也 是 整个 云 存储 平台 最 难 实现 的 部 
分 。CDN 节 点 将 云 存 储 系统 中 的 热点 数据 缓存 到 离 用 户 最 近 的 位 置 ， 从 而 减少 用 户 的 
访问 延 时 并 节约 市 宽 。 


存储 访问 层 位 于 分 布 式 存储 层 的 上 一 层 ， 该 层 的 主要 作用 是 将 分 布 式 存储 层 的 客户 
端 接口 封装 为 Nebservice ( 基于 RESTful, SOAP 等 协议 ) 服务 ， 另 外 ， 该 层 通 过 调 
用 公共 服务 实现 用 户 认 证 ， 权 限 管理 以 及 计 费 等 功能 。 存 储 访问 层 不 是 必须 的 ， 云 
存储 平台 中 的 计算 实例 也 可 以 直接 通过 客户 端 应 用 编程 接口 ( API ) 访问 分 布 式 存储 
层 中 的 存储 系统 。 


(2) 应 用 运行 平台 组 件 


应 用 运行 平台 的 主体 为 计算 实例 ， 计 算 实例 最 主要 的 功能 有 两 个 : 开发 者 的 应 用 程 
序 运行 环境 以 及 离线 任务 处 理 。 不 同 的 云 计算 平台 厂 丙 的 计算 实例 形式 往往 不 同 : 
AWS ( Amazon Web Service ) 平台 中 的 计算 实例 为 Amazon 的 弹性 计算 ( Elastic 
Computing, EC2 ) 虚拟 机 ， 它 们 既 用 于 托管 开发 者 的 Web 程序， 又 可 用 来 执行 
Hadoop MapReduce 计 算 或 者 图 像 以 及 视频 转换 等 离线 任务 ; GAE ( Google App 
Engine) 平台 中 的 计算 实例 分 为 前 端 实例 (Frontend Instance) 以 及 后 端 实例 


(Backend Instance) , EB, Bijumscp7JGAERFBGRJPython, Javal ARGES 
运行 容器 ， 用 于 托管 开发 者 使 用 Python、Java 或 者 Go 语言 开发 的 Web 程 序 ， 后 端 实 
例 执 行 运行 时 间 较 长 的 离线 任务 ; 微软 的 Azure 平 台 (Windows Azure 

Platform) 的 计算 实例 为 运行 着 一 个 64 位 的 windows Server 2668 的 虚拟 机 ， 分 
为 Neb Role, Worker Role 以 及 VM Role 三 种 角色 ， 其中，Web Role 用 于 托管 Web 
程序 ，Worker Role 用 于 执行 视频 处 理 等 离线 计算 任务 。 


多 个 计算 实例 构成 一 个 计算 实例 组 ， 当 实例 组 中 的 某 个 实例 出 现 故 障 时 ， 能 够 自动 
将 负载 迁移 到 其 他 的 实例 ， 并 且 支 持 动 态 增 加 或 者 减少 实例 从 而 使 得 实例 组 的 处 理 
能 力 具 有 动态 可 伸缩 性 。 运 行 平台 的 最 前 端 是 路 由 及 负载 均衡 组 件 ， 它 将 用 户 的 请 
求 按 照 一 定 的 策略 友 送 到 合适 的 计算 实例 。 


云 存 储 平台 还 包含 一 些 公共 服务 ， 这 些 基 础 服务 由 云 存储 组 件 及 运行 平台 组 件 所 共 
用 ， 如 下 所 示 : 


e 消 息 服务 。 消 息 服务 将 执行 流程 异步 化 ， 用 于 应 用 程序 解 厢 。 计 算 实例 一 般 分 为 处 
理 Web 请 求 的 前 台 实 例 以 及 处 理 离线 任务 的 后 台 实 例 ， 在 很 多 情况 下 ， 前 台 实 例 处 理 
Web 请 求 的 过 程 中 需要 局 动 运行 在 后 台 的 任务 ， 这 种 需求 可 以 通过 消息 服务 实现 。 


e 绥 存 服务 。 绥 存 服务 用 于 存储 云 存 储 系统 中 的 读 多 写 少 的 热点 数据 ， 从 而 加 速 查 
询 ， 减 少 对 后 端 存 储 系统 压力 。 大 多 数 云 存储 平台 提供 Memcache 服 务 。 


e 用 户 管理 。 用 户 管理 主要 功能 是 用 户 身份 认证 ， 确 保 用 户 的 身份 合法 ， 并 仓储 用 户 
相关 的 个 人 信息 。 云 计算 平台 一 般 文 持 单 点 登录 ， 在 多 个 应 用 系统 中 ， 用 户 只 需 
登录 一 次 融 可 以 访问 所 有 相互 信任 的 系统 。 


e 权 限 管 理 。 为 多 个 服务 提供 集中 的 权限 控制 ， 以 确保 应 用 和 数据 只 能 被 有 授权 的 用 


尸 访 问 。 云 存储 系统 一 般 会 维护 一 系列 的 访问 策略 ， 每 一 条 策略 表示 某 个 用 户 是 否 
对 某 个 资源 具有 某 种 操作 权限 。 


e 安 全 服务 。 安 全 服务 包括 Web 漏 洞 检测 ， 网 页 挂 马 检测 ， 端 口 安全 检测 ， 入 侵 检 
测 ， 分 布 式 拒绝 服务 攻击 (Distributed Denial of Service,DDos ) 缓解 等 。 
web 漏洞 检测 提供 对 应 用 的 SQL 注入 漏洞 、Xss 跨 站 脚本 漏洞 、 文 件 包含 等 高 危 安 全 
漏洞 进行 检测 ; 网 页 挂 马 检测 通过 静态 分 析 技 术 和 虚拟 机 沙 箱 行为 检测 技术 相 结 
合 ， 对 网 站 进行 挂 马 检 测 ; 端口 安全 检测 通过 定期 扫描 服务 器 开放 的 高 危 端 口 ， 降 
低 系 统 被 入 侵 的 风险 ; 主机 入 侵 检 测 通过 主机 日 志 安 全 分 析 ， 实 时 侦 测 系统 密码 破 
解 ， 异 常 IP 登 录 等 攻击 行为 并 实时 报警 ; DDos 缓 解 技 术 能 够 抵御 SYN flood 以 及 其 
他 拒绝 服务 攻击 。 


e 计 费 管理 。 利 用 底层 的 监控 系统 所 采集 的 数据 对 每 个 用 户 使 用 的 资源 和 服务 进行 统 
计 ， 计 算出 用 户 的 使 用 费用 ， 并 提供 完善 和 详细 的 报表 。 云 存储 系统 计 费 涉及 的 参 

数 一 般 包括 : CPU 时 间 ， 网 络 出 口 带 宽 ， 存 储量 以 及 服务 调用 次 数 ( 包括 读 写 API 调 
用 次 数 ) 。 


e 资 源 管 理 。 管 理 云 仓 储 平台 中 的 所 有 服务 器 资源 ， 将 应 用 程序 或 者 虚拟 机 映射 目 动 
部 署 到 合适 的 计算 实例 ， 另 外 ， 目 动 调整 计算 实例 的 数量 来 帮助 运行 于 其 上 的 应 用 
更 好 地 应 对 突 发 流量 。 当 计算 实例 发 生 故 障 时 ， 资 源 管理 系统 还 需要 通知 前 端的 负 
载 均衡 层 ， 将 流量 切换 到 其 他 计算 实例 。 


e 运 维 管 理 。 云 存储 平台 的 运 维 需 要 做 到 自动 化 ， 从 而 降低 运 维 成 本 ， 一 般 来 说， 有 
一 套 专门 的 web 运 维 系统 用 于 系统 上 下 线 ， 批 量 升级 系统 程序 版 本 等 。 


。 监 控 系 统 。 监 控 系 统 有 两 个 层面 ， 其 一 是 资源 层面 ， 即 资源 的 运行 情况 ， 比 如 CPU 


使 用 率 、 内 存 使 用 率 和 网 络 带宽 利用 率 、Load 值 等 ， 需 要 注意 的 是 ， 云 计算 平台 除 
了 监控 物理 机 资源 ， 还 需要 监控 虚拟 机 资源 的 运行 情况 ; 其 二 是 应 用 层面 ， 主 要 记 
录 应 用 每 次 请 求 的 啊 应 时 间 、 读 写 请 求 数 等 。 


12.6 云 存 储 技术 体系 


云 存 储 涉及 的 知识 面 很 广 ， 既 涉及 云 存 储 服 务 端 的 技术 ， 又 涉及 终端 设备 应 用 开发 
相关 的 技术 。 本 书 天 注 云 存储 系统 服务 端 扩 术 ， 其 技术 体系 如 图 12-8 所 示 。 


分 布 式 文件 
( GFS/TFS 等 ) 


NoSQL 存储 引擎 
( hash/Ismtree 等 ) 


文件 系统 
( ext3/ext4/btrfs 等 ) 


TET 
( 低 功 耗 / 低 成 本 


存储 
( SSD/SAS/SATA/PCI-E ) 
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分 布 式 计算 
( MapReduce/MPI 等 ) 
相关 技术 


存储 访 
问 hi 


分 布 式 表格 系统 分 布 式 数据 库 访问 加 速 
( Bigtable 等 ) ( SQL Azure 等 ) (CDN/P2P) 


分 布 式 锁 服 务 分 布 式 
( Chubby 等 ) 存储 


关系 数据 库 压缩 / 解压 缩 
( SQL/ 事务 /索引 等 ) ( Izo/zippy/bmdiff) 
单机 存储 
CPU 与 内 存 
( 内 存 管理 /CPU 优化 ) 


数据 中 心 
j (电源 /冷却 /PUE ) 


网 络 CPU 
(万 兆 网 卡 /交换 机 等 ) ( Nehelam/Atom 等 ) 





云 仓 储 技术 体系 结构 分 为 四 层 : 硬件 层 、 单 机 存储 层 、 分 布 式 存储 层 、 存 储 访问 


层 ， 下 面 分 别 介绍 。 
(1) 硬件 层 


硬件 层 包括 存储 、 网 络 以 及 CPU。 在 仓储 方面 ， 除 了 传统 的 SAs 或 者 SATA 磁 盘 ，SSD 
技术 发 展 迅 猛 ; 在 网 络 方面 ， 干 兆 网 卡 已 经 普及 ， 万 兆 网 卡 离 我 们 越 来 越 近 , 
Google 这 样 的 互联 网 巨头 已 经 开始 尝试 通过 软件 自 定义 交换 机 ; 在 CPU 层 面 ，Intel 
x86 架 构成 为 主流 ， 低 功 耗 逐步 成 为 研究 热点 。 为 了 降低 成 本 和 能 耗 ， 云 存储 服务 提 
供 商 往往 会 定制 服务 器 ， 甚 至 自 建 数据 中 心 ， 需 要 考虑 电源 、 冷 却 、PUE (Power 


Usage Efficiency， 能源 使 用 效率 ) 等 各 种 问题 。 
( 2) 单机 存储 层 


云 存 储 系统 的 底层 大 多 为 定制 的 Linux 操 作 系统 ， 服 务 提供 商 需 要 在 文件 系统 、 网 络 
协议 以 及 cPU 和 内 存 使 用 上 对 Linux 系 统 进行 大 量 的 定制 化 工作 。 单 机 存储 系统 大 致 
分 为 两 类 : 传统 的 关系 数据 库 以 及 NoSQL 存 储 系 统 。 关 系数 据 库 支 持 二 维 的 关系 模 
式 ， 并 提供 关系 数据 库 查 询 语言 SQL， 支 持 事务 ， 索 引 等 操作 ， 使 用 比较 方便 。 
NoSQL 和 存储 系统 则 百花 齐 放 ， 常 见 的 NoSQL 系 统 包 括 仪 支持 根据 主键 进行 

CRUD ( Create,Read,Update,Delete ) 操作 的 键 值 ( Key-Value ) 存储 系统 ,也 
有 基于 传统 的 B 树 或 者 LSM 树 ( Log-Structured Merge Tree ) 的 存储 系统 。 


( 3) 分 布 式 存储 层 


分 布 式 存 储 层 是 云 存 储 技术 的 核心 ， 也 是 最 难 实现 的 部 分 。 分 布 式 存储 系统 需要 能 
够 将 数据 均匀 地 分 散 到 多 个 存储 节点 上 ， 另外， 为 了 保证 高 可 靠 性 和 高 可 用 性 ， 需 
要 将 数据 复制 到 多 个 存储 节点 并 保证 一 致 性 。 当 存储 节点 出 现 故 障 时 ， 需 要 能 够 目 
动 检测 到 节点 故障 并 将 服务 迁移 到 其 他 正常 工作 的 节点 。 分 布 式 存储 层 依 赖 一 些 基 


础 服务 ， 常 见 的 包括 分 布 式 锁 服务 ( 例如 Google Chubby 系 统 ) ， 以 及 集群 资源 管 
理 服务 ( 例如 Google Borg 系 统 ) 。 另 外 ， 分 布 式 存储 层 包含 分 布 式 缓 存 以 及 服务 
总 线 ， 分 布 式 缓 存 用 于 提高 访问 性 能 ， 服 务 总 线 用 于 云 平台 应 用 人 逃 辑 解 厢 。 云 仓储 
系统 既 存 储 无 结构 化 数据 ， 又 存储 半 结 构 化 以 及 结构 化 数据 ， 分 别 对 应 分 布 式 文件 
系统 、 分 布 式 表 格 系统 以 及 分 布 式 数据 库 ， 而 CDN 以 及 P2P 技 术 将 云 存储 系统 中 的 热 \ 
点 数据 缓存 到 离 用 户 较 近 的 边缘 节点 或 者 临近 的 其 他 用 户 的 客户 端 ， 从 而 起 到 访问 
加 速 的 作用 ， 并 且 节 省 云 存 储 服务 提供 商 的 网 络 市 完成 本 。 


( 4 ) 存储 访问 层 


云 存储 系统 通过 存储 访问 层 被 个 人 用 户 的 终端 设备 直接 访问 ， 或 者 被 云 存 储 平 台中 
托管 的 应 用 程序 访问 。 云 存储 访问 层 的 功能 包括 : Web 服 务 、 负 载 均 衡 、 安 全 服务 以 
及 计 费 。 云 存储 系统 对 外 提供 统一 的 访问 接口 ， 常 见 的 接口 是 REsT 或 者 SOAP 这 样 的 
Web 服 务 ， 需 要 通过 Apache 或 者 Nginx 这 样 的 Web 服务 器 进行 协议 转化 ，Web 服 务 器 
前 疹 经 党 使 用 LVs ( Linux Virtual Server ) 、HaProxy 这 样 的 软件 或 者 专业 的 负 
载 均衡 设备 ( 如 F5 负 载 均衡 器 ) 进行 负载 均衡 。 存 储 访问 层 需要 提供 安全 和 计 费 服 
务 ， 安 全 服务 包括 身份 认证 、 访 问 授权 、 综 合 防 护 、 安 全 审计 、DDos 攻 击 预防 /防火 


墙 等 。 
用 户 的 应 用 程序 可 能 会 托管 在 应 用 运行 平台 中 ， 应 用 场景 大 致 分 为 三 类 : 


e 弹 性 计算 平台 。 典 型 的 弹性 计算 平台 为 Amazon EC2 以 及 Microsoft 的 各 种 虚拟 机 
实例 ， 底 层 涉及 的 技术 包括 虚拟 机 、 目 动 伸缩 。 弹 性 计算 平台 通过 虚拟 机 上 自身 的 机 
制 来 保证 云 安全 ， 比 如 虚拟 机 安全 隔离 、 虚 拟 机 防火 墙 。 基 于 虚拟 机 的 弹性 计算 平 
台 的 优势 在 于 兼容 性 ， 支 持 各 种 编程 语言 和 平台 。 


e 云 引擎 。 上 典型 的 云 引 党 为 G600gle App Engine， 底层 设计 的 涉及 的 技术 主要 是 应 
用 容器 ( 比如 Java Tomcat, Jetty,Python Runtime ) 以 及 应 用 容器 自动 伸缩 。 
当 应 用 的 负载 过 高 时 ， 自 动 增加 应 用 的 运行 容器 数 ; 反之 ， 自 动 减少 应 用 的 运行 容 
器 数 。 云 引擎 通过 应 用 容器 的 沙 箱 机 制 来 保证 安全 性 ，App Engine 的 沙 箱 环境 通过 
限制 每 个 请 求 的 执行 时 间 来 防止 多 租户 之 间 干 扰 ， 另 外 ， 限 制 应 用 程序 对 网 络 、 文 
件 进 行 一 些 危 险 操作 。 云 引擎 与 云 仓储 服务 提供 商 结合 较 好 ， 但 是 对 于 每 种 不 同 的 
编程 语言 都 需要 定制 相应 的 应 用 容器 ， 对 编程 语言 和 平台 支持 比较 有 限 。 


。 分 布 式 计 算 。 云 平台 往往 会 支持 分 布 式 计算 ， 通 过 后 台 的 计算 实例 执行 耗 时 较 长 的 
计算 任务 。MapReduce 是 最 为 常见 的 分 布 式 计算 模型 ， 云 平台 一 般 都 支持 开源 的 
Hadoop MapReduce 计 算 框架 。 除 了 MapReduce 之 外 ， 还 有 很 多 针对 特定 应 用 场景 的 
计算 模型 ， 例 如 MPI ( Message Passing Interface ) BSP (Bulk 


Synchronous Parallel ) 等 。 


12.7 云 存储 安全 


云 仓 储 的 一 些 特性 和 现 有 的 IT 模 式 有 很 大 的 差异 ， 特 别 是 数据 和 应 用 都 存储 和 运行 
在 个 可 控 的 云 平台 , 而 不 是 传统 的 企业 数据 中 心 内 。 安 全 是 云 存储 的 前 提 ， 如 果 用 
尸 数据 的 私密 性 得 不 到 保证 ， 用户 的 宝贵 数据 随时 可 能 丢失 ， 那 么 ， 云 存储 只 能 


是 “空中 楼 阁 ”。 


首先 需要 承认 ， 云 存储 在 安全 方面 确实 面临 着 更 多 的 挑战 ， 也 不 可 能 强行 要 求 用户 
将 所 有 的 数据 、 服 务 和 应 用 都 依托 于 互联 网 “ 云 ” 里 。 安 全 问题 主要 体现 在 如 下 几 
个 方面 。 


e 人 在 信任 边界 方面 有 了 巨大 的 变化 。 在 现 有 的 IT 模式 下 ， 所 有 的 IT 资源 都 处 于 企业 


IT 部 门 的 监控 之 下 ， 理 论 上 都 是 可 以 信任 的 。 但 在 云 存储 环境 中 ， 数 据 存放 在 企业 
无 法 监管 的 云 存储 平台 中 ， 这 些 数据 对 企业 而 言 暂时 很 难 被 充分 信任 。 


e 更 多 利益 相关 方 。 过 去 只 有 企业 的 IT 部 分 参与 到 IT 运 营 中 ， 但 是 在 云 存储 环境 
中 ， 云 仓储 服务 提供 商 也 会 参与 其 中 。 


e 云 存储 服务 暴露 在 互联 网 上 。 和 过 去 大 多 数 企 业 IT 服 务 只 运行 在 企业 的 内 部 网 不 同 
的 是 ,公有 云 存储 服务 暴露 在 互联 网 上 。 昌 然 它 会 配备 一 定 的 安全 和 认证 方面 的 措 
施 ， 但 是 需要 面 对 DDos 等 攻击 的 可 能 性 。 


e 多 租户 共享 的 引入 。 云 存储 运行 平台 通过 虚拟 机 或 者 特定 的 应 用 运行 容器 实现 多 租 
户 共 享 ， 但 是 这 些 技术 都 做 不 到 尽善尽美 ， 多 个 用 户 可 能 互相 干扰 ， 这 也 为 云 存储 
的 安全 性 种 来 了 一 定 的 隐患。 


e 数 据 仓 储 。 传 统 模式 下 ， 个 人 用 户 将 数据 仓储 企 本 地 磁盘 ，U 盘 等 持久 化 介质 中 ， 
而 云 人 存储 的 数据 存放 在 个 人 用 户 无 法 接触 到 的 数据 中 心中 ， 用 户 的 隐私 仓 在 一 定 的 
风险 。 


然而 ， 云 存储 的 安全 问题 并 不 像 想 象 中 那么 严重 ， 云 存储 服务 提供 商 有 专门 的 安全 
团队 ， 制 定 了 完善 的 安全 方案 ， 对 任何 应 用 和 数据 的 访问 和 使 用 都 会 被 记录 在 案 ， 
也 会 对 数据 进行 备份 和 加 密 。 云 存储 服务 提供 商 一 般 为 大 型 互联 网 企业 ， 技 术 实 力 
强 ， 能 够 保证 数据 的 高 可 靠 和 高 可 用 性 。 另 外 ， 安 全 是 云 存 储 的 前 提 ， 当 云 存储 平 
台 出 现 非 常 重大 的 安全 问题 ， 将 极 有 可 能 使 其 在 市 场 上 处 于 月 演 的 境地 ， 正 因 如 

此 ， 云 存储 服务 提供 商 一 定 会 非常 重视 安全 问题 。 


传统 的 IT 模式 在 安全 方面 也 不 是 固 若 金汤 。 例 如 ， 个 人 用 户 往往 没有 数据 备份 意 
识 ， 很 多 用 户 的 关键 数据 只 存储 一 份 在 PC 机 或 者 手机 中 ， 也 不 进行 加 密 ， 如 果 PC 机 


或 者 手机 丢失 ， 个 人 数据 将 泄漏 ， 个 人 隐私 也 受到 威胁 。 企 业 数 据 中 心 也 不 一 定 是 
安全 的 ， 很 多 企业 没有 专门 的 安全 团队 ， 一 些 天 键 的 数据 ， 比 如 用 户 的 银行 卡号 信 
息 ， 可 能 被 内 部 用 户 盗窃 以 牟取 私利 ，2611 年 基 专 业 面 向 程序 员 的 网 站 也 出 现 过 密 
码 泄露 事件 。 可 以 这 么 说 ， 很 多 用 户 甚至 包括 企业 用 户 要 么 没有 安全 意识 ， 要 么 缺 
之 安全 方面 的 知识 或 者 不 愿意 花 太 多 的 时 间 处 理 安全 问题 ， 与 其 让 用 户 数 据 上 自生 目 
灭 ， 不 如 交 给 专业 的 云 存 储 安 全 团队 管理 。 


云 存 储 安全 包括 两 个 层面 : 非 技 术 层 面 以 及 技术 层面 。 非 拉 术 层面 主要 指 政 策 、 法 
律 以 及 监管 等 。 正 如 我 们 愿意 将 钱 人 存 到 银行 或 者 身份 证 信息 登记 到 公安 系统 一 样 ， 
只 要 对 安全 问题 足够 重视 并 制定 相应 的 法 律 法 规 和 监管 措施 ， 非 技术 层面 的 问题 是 
会 逐步 解决 的 。 在 技术 层面 ， 云 存储 安全 包括 如 下 几 个 方面 。 


(1) 用 户 安全 


用 户 安全 主要 包括 两 个 方面 : 用 户 认 证 以 及 访问 授权 。 用 户 认 证 用 于 确保 用 户 的 合 

法 性 ， 访 问 授 权 用 于 确保 每 个 用 户 只 能 访问 他 们 得 到 授权 的 应 用 和 数据 。 另 外 ， 用 

户 安全 模块 还 会 对 用 户 的 操作 进行 日 志 记 录 以 检测 每 个 用 户 的 行为 ， 以 友 现 用 户 任 

何 触及 安全 底线 的 行为 。 以 Amazon 云 平台 ANSs 为 例 ， 新 用 户 注册 时 ，Amazon 会 分 配 
给 每 个 用 户 分 配 一 个 Access Key ID 和 一 个 Secure Access Key,Access Key ID 

用 于 确定 请 求 的 友 送 者 ， 而 Secure Access Key 则 参与 数字 签名 过 程 ， 用 来 证 明 友 
适 服务 请 求 的 账户 的 合法 性 。 用 户 请 求 ANs 服 务 时 将 通过 HMAC 函 数 对 Secure 

Access Key 生 成 数字 签名 ， 当 服务 端 接收 到 用 户 请 求 后 通过 用 户 的 Access Key ID 
坦 找 服务 器 端 保 仓 的 数字 等 名 ， 然 而 和 用 户 上 友 送 的 数字 签名 做 比 对 ， 相 同 则 通过 验 

证 ， 反 之 拒绝 请 求 。 在 访问 授权 方面 ， 一 个 AWS 账 户 可 以 创建 多 个 用 户 ， 人 允许 同一 个 
账户 下 的 不 同 用 户 具 有 不 同 的 访问 权限 。AWS 可 以 设置 每 个 账户 的 访问 控制 策略 


(Policy) ， 每 个 策略 都 是 一 个 四 元 组 < HFP , ls , 操作 ，Allow/Deny > ， 表 示 
是 否 人 允许 用 户 对 某 个 资源 执行 某 些 操作 。 例 如 ，< Bob, s3 : 

bucket xyz,ListBucket,Allow» ， 表 示人 允许 用 户 Bob 对 S3 中 名 为 bucket_xyz 的 
桶 执行 ListBucket 操 作 。 


( 2 ) 网 络 安全 


网 络 安全 包括 安全 通信 、 网 络 防火 墙 、 入 侵 检测 、DDoS 攻 击 缓解 等 。 云 存储 通过 
SSL ( Secure Sockets Layer , 安全套 接 层 ) TLS ( Transport Layer 
security， 传 输 层 安全 ) VPN (Virtual Private Network , 虚拟 专 用 网 络 ) 和 
IPSec ( Internet Protocol Security , 因特网 协议 安全 性 ) 等 安全 技术 来 确保 
通信 的 私密 性 和 完整 性 。 另 外 ， 通 过 网 络 防火 墙 过 滤 非 法 的 网 络 访问 ， 并 且 支 持 入 
侵 和 DDos 攻 击 的 侦 测 。 例 如 ，Amazon 的 ANs 平 台 默 认 情 况 下 防火 墙 会 禁止 任何 流入 
的 流量 ， 用 户 需要 明确 开启 端口 才能 接收 流入 的 流量 ， 并 且 还 会 依据 其 协议 和 源 地 
址 来 对 部 分 流量 进行 屏蔽 ， 另 外 ，AWs 内 部 的 主机 防火 墙 系 统 不 允许 那些 以 非 本 地 IP 
和 MAC 作 为 源 地 址 的 网 络 流量 ， 从 而 防止 应 用 程序 发 送 带 有 欺骗 性 的 网 络 流量 。 最 
后 ， 需 要 检测 和 分 析 整 个 网 络 的 流量 来 确保 网络 安全 运行 ， 发 现 流量 异常 时 及 时 报 


[pd 


(3) 多 租户 隔离 


云 存储 的 应 用 运行 在 虚拟 机 或 者 特定 的 应 用 容器 中 ， 需 要 确保 多 个 应 用 之 间 互 相 不 
会 产生 干扰 ， 也 需要 防止 应 用 破坏 系统 。 以 Amazon EC2 和 Google App Engine 为 
例 ，EC2 底 层 采 用 Xen 来 管理 多 个 实例 。 通 过 Xen 的 半 虚 拟 化 技术 ， 能 在 多 个 虚拟 机 
和 虚拟 机 管理 程序 之 间 对 CPU、 网 络 、 内 存 和 硬盘 等 资源 进行 有 效 隔离 ， 虚 拟 机 之 间 
互相 不 影响 ; 而 App Engine 通 过 安全 沙 箱 的 机 制 限制 了 应 用 程序 对 网 络 或 者 文件 进 


行 危险 操作 ， 也 限制 了 单个 请 求 的 时 间 和 最 多 允许 使 用 的 资源 从 而 防止 影响 其 他 应 
FB. 


(4) 存储 安全 


存储 安全 主要 包括 数据 备份 以 及 数据 安全 。 为 了 避免 由 于 硬件 或 者 软件 故障 导致 数 
据 丢 失 ， 需 要 将 数据 复制 到 多 个 存储 节点 ， 另 外 ， 为 了 防止 数据 中 心 整体 出 现 故 障 
的 情况 ， 云 存储 系统 设计 时 需要 将 复制 到 多 个 数据 中 心 进行 容 灾 。 为 了 保证 数据 安 
全 ， 需 要 对 数据 加 密 ， 比 如 ， 用 户 在 上 传 数据 之 前 先 使 用 密 钥 对 其 进行 加 密 ， 并 企 
使 用 时 再 解密 。 这 样 能 够 确保 即使 数据 被 窃取 ， 也 不 会 被 非法 分 子 所 利用 。 另 外 ， 
还 可 以 通过 数据 校 验 来 确保 数据 的 完整 性 ， 当 数据 被 用 尸 删 除 之 后 ， 云 存储 系统 需 
要 确保 很 快 删除 所 有 的 副本 ， 从 而 防止 非法 访问 。 


总 而 言 之 ， 安 全 是 云 存储 的 核心 问题 ， 但 不 必 对 此 过 分 担心 ， 前 途 是 光明 的 ， 道 路 
是 曲折 的 ， 随 着 专业 的 云 存 储 服务 提供 商 对 系统 不 断 的 优化 ， 云 存储 比 现 有 的 IT 模 
陈 反 而 会 更 加 安全 。 


第 13 E 大 数据 


随 着 云 时 代 的 来 临 ， 大 数据 (Big Data) 也 吸引 了 越 来 越 多 的 关注 。2812 年 7 月 ， 
阿里 巴巴 数据 公司 成 立 并 设立 了 一 个 全 新 的 岗位 : 首席 数据 官 ( Chief Data 
officer,CDO ) ， 由 此 可 见 数据 在 未 来 的 价值 。 这 也 意味 着 与 “大 数据 存储 、 计 算 
和 价值 提取 ”相关 的 技术 岗位 将 会 得 更 加 重要 。 


为 了 从 大 数据 中 提取 有 价值 的 信息 ， 首 先 需 要 将 大 数据 存储 并 沉 洪 下 来 ， 除 此 之 
外 ， 还 需要 使 用 合适 的 大 数据 计算 框架 和 大 数据 处 理 算法 来 理解 数据 的 价值 。 提 到 


然而 ，MapReduce 并 不 是 大 数据 的 全 部 。 昌 然 MapReduce 解 决 了 海量 数据 离线 分 析 
问题 ， 但 是 ， 随 着 应 用 对 数据 的 实时 性 要 求 越 来 越 高 ， 流 式 计算 系统 和 实时 分 析 系 
统 得 到 越 来 越 广泛 的 应 用 。 


本 章 首 先 介绍 大 数据 的 概念 以 及 大 数据 计算 平台 ， 接 着 介绍 MapReduce 离 线 处 理 系 
统 ， 最后， 介绍 流 式 计算 系统 和 实时 分 析 系 统 。 


13.1 大 数据 的 概念 


大 数据 本 身 产生 的 背景 是 什么 ?主要 有 几 点 : 一 、 数 据 的 爆发 式 的 增长 ， 有 一 个 趋势 
叫 新 摩尔 定律 。 根 据 IDC 作 出 的 预测 ， 数 据 一 直 都 在 以 每 年 56X% 的 速度 增长 ， 也 融 是 
这 每 两 年 增加 一 倍 ， 这 意味 着 人 类 在 最 近 两 年 产生 的 数据 量 相 当 于 之 前 产生 的 全 部 
数据 量 。 二 、 大 数据 表现 为 社会 化 趋势 。 社 交 网 络 兴起 ， 大 量 的 UGC 内 容 ( User 
Generated Content， 即 用 户 生成 内 容 ) 、 首 频 、 文 本 信息 、 视 频 、 图 片 等 非 结构 
化 数据 出 现 了 。 三 、 物 联网 的 数据 量 更 大 ， 加 上 移动 互联 网 能 更 准确 、 更 快 地 收集 
用 户 信息 ， 比 如 位 置 、 生 活 信息 等 数据 。 


以 往 大 数据 通常 用 来 形容 一 个 公司 创造 的 大 量 非 结 构 化 和 半 结 构 化 数据 ， 而 现在 提 
及 “大 数据 ”， 通 单 是 指 解决 问题 的 一 种 方法 ， 即 通过 收集 、 整 理 生活 中 方方面面 
的 数据 ， 并 对 其 进行 分 析 挖 据 ， 进而 从 中 获得 有 价值 信息 ， 最 终 衍化 出 一 种 新 的 商 
业 模 式 。 简 而 言 之 ， 从 各 种 各 样 类 型 的 数据 ， 包 括 非 结构 化 数据 、 半 结构 化 数据 以 
及 结构 化 数据 中 ， 人 快速 获 取 有 价值 信息 的 能 力 ， 融 是 大 数据 技术 。 


时 然 大 数据 目前 在 国内 还 处 于 初级 阶段 ， 但 是 商业 价值 已 经 显现 出 来 。 首 先 ， 手 中 
握 有 数据 的 公司 站 在 金太 上 ， 基 于 数据 交易 即 可 产生 很 好 的 效益 ; 其 次 ， 基 于 数据 


挖掘 会 有 很 多 商业 模式 诞生 。 比 如 侧重 数据 分 析 ， 帮 企业 做 内 部 数据 挖掘 ; 或 者 侧 
重 优化 ， 帮 企业 更 精 ) 付 找到 用 记 ， 降 低 营 销 成 本 。 未 来 ， 数 据 可 能 成 为 最 大 的 交易 
商品 。 但 数据 量 大 并 不 能 算是 大 数据 ， 大 数据 的 特征 是 数据 量 大 、 数 据 种 类 多 、 非 
标准 化 数据 的 价值 最 大 化 。 因 此 ， 大 数据 的 价值 是 通过 数据 共享 、 交 叉 复 用 后 获取 
最 大 的 数据 价值 。 


大 数据 的 特点 可 以 用 4 个 V 来 描述 : 


eVolume， 传 统 的 数据 仓库 技术 处 理 GB 到 TB 级 别 的 数据 ， 大 数据 技术 处 理 的 数据 量 
往往 超过 PB。 数 据 容量 增长 的 速度 大 大 超过 了 硬件 技术 的 友 展 速 度 ， 以 至 于 引 友 了 
数据 存储 和 处 理 的 危机 。 


eVariety， 数 据 类 型 多 。 原 来 的 数据 都 可 以 用 二 维 表 结 构 存 储 在 数据 库 中 ， 如 常用 
的 Excel 软 件 所 处 理 的 数据 ， 称 为 结构 化 数据 。 但 是 现在 更 多 互联 网 多 媒体 应 用 的 出 
现 ， 使 诸如 图 片 、 声 音 和 视频 等 非 结构 化 数据 占 到 了 很 大 比重 。 


eVelocity， 数 据 增长 迅速 。 如 果 说 大 数据 的 特点 是 海量 和 非 结构 化 ， 那 也 是 不 全 
面 的 。 大 数据 市 来 的 挑战 还 在 于 它 的 实时 处 理 。 


eValue， 价 值 密度 低 。 以 连续 不 间断 的 监控 视频 为 例 ， 可 能 有 用 的 数据 仅仅 有 一 两 
秒 钟 。 


( 1 ) 大 数据 管理 


一 提 到 大 数据 ， 大 部 分 人 首先 想到 的 就 是 Hadoop。Hadoop 是 Google GFS 以 及 
MapReduce 系 统 的 开源 实现 ， 用 户 可 以 在 不 了 解 分 布 式 底层 细节 的 情况 下 开发 分 布 
式 程序 。 然 而 ， 大 数据 就 是 Hadoop 么 ? Hadoop 只 是 大 数据 技术 的 一 部 分 ， 它 虽然 提 


供 了 离线 处 理 功能 ， 但 无 法 做 到 动态 和 实时 的 分 析 。 为 了 解决 实时 性 问题 ， 流 计算 
和 实时 分 析 系 统 应 运 而 生 。 其 中 ， 流 计算 系统 能 够 处 理 实时 的 数据 流 ， 实 时 分 析 系 
统 主要 采用 传统 的 MPP 技 术 ( Massively Parallel Processing， 大 规模 并 行 处 
理 ) 从 海量 数据 中 实时 提取 有 价值 的 汇总 信息 。 


( 2 ) 大 数据 理解 


大 数据 内 部 以 及 数据 和 数据 之 间 关 系 的 理解 涉及 数据 挖 据 、 机 器 学 习 、 多 媒体 理解 
等 多 个 前 沿 领域 的 技术 ， 例 如 相似 项 以 及 频繁 项 挖 据 ， 分 类 与 聚 类 ， 协同 过 滤 ，, 语 
音 识别 与 图 像 处 理 等 。 这 一 块 目前 做 得 还 不 够 深入 ， 目 前 主要 从 体系 结构 、 分 布 式 
处 理 、NOSQL 等 思路 出 友 解 决 性 能 问题 ， 如 何 设计 合理 的 算法 、 规 则 或 者 目 动 进化 的 
系统 理解 大 数据 、 对 大 数据 去 伪 存 真 将 会 是 今后 大 数据 领域 主要 的 挑战 。 


( 3 ) 大 数据 应 用 


大 数据 技术 应 用 在 互联 网 营销 将 产生 直接 的 商业 价值 。 大 数据 技术 告诉 广告 商 什么 
是 正确 的 时 间 ， 谁 是 正确 的 用 户 ， 什 么 是 应 该 友 表 的 正确 内 容 等 ， 这 正好 切合 了 广 
告 商 的 需求 。 另 外 ， 社 交 网 络 与 移动 互联 网 的 兴起 将 大 数据 市 入 新 的 征程 ， 社 交 网 
络 产 生 了 海量 用 户 以 及 实时 和 完整 的 数据 ， 移动 互联 网 市 来 了 地 理 位 置 以 及 更 多 个 
性 化 信息 。 互 联网 营销 将 在 行为 分 析 的 基础 上 向 个 性 化 时 代 过 渡 ， 通 过 大 数据 技术 
深入 挖掘 每 个 用 户 ， 然 后 将 这 些 分 析 后 的 数据 推送 给 需要 的 品牌 商家 。 


大 数据 技术 还 能 应 用 在 搜索 引擎 、 推 荐 系统 等 用 户 类 产品 以 改进 用 户 体验 。 互 联网 
技术 归根 结 底 束 是 云 计 算 和 大 数据 技术 ， 云 计算 提供 海量 数据 的 存储 和 计算 能 力 ， 
并 最 大 程度 地 降低 分 布 式 处 理 的 成 本 ， 大 数据 技术 进一步 从 海量 数据 中 抽取 数据 的 
价值 ， 从 而 诞生 Goog1le 搜 索引 警 、Amazon 商 品 推荐 系统 这 样 的 杀手 级 应 用 ， 形 成 一 


条 大 数据 采集 、 处 理 、 反 馈 的 数据 处 理 闭环 。 
13.2 MapReduce 


提 到 大 数据 ， 大 多 数 人 首先 想到 的 束 是 MapReduce。MapReduce 使 得 普通 程序 员 可 
以 在 不 了 解 分 布 式 底层 细节 的 前 提 下 开 妈 分 布 式 程序 。 使 用 者 只 需 编写 两 个 称 为 Map 
和 Reduce 的 函数 即 可 ，MapReduce 框 架 会 目 动 处理 数 据 划分 、 多 机 并 行 执行 、 任 务 
之 间 的 协调 ， 并 且 能 够 处 理 某 个 任务 执行 失败 或 者 机 器 出 现 故障 的 情况 。Map 


Reduce 的 执行 流程 如 图 13 -1 所 示 。 
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中 间 文 件 
13-1 MapReduce 执 行 流程 


MapReduce 框 架 包 含 三 种 角色 : 主 控 进程 (Master ) 用 于 执行 任务 划分 、 调 度 、 任 


务 之 间 的 协调 等 ; Map 工 作 进 程 (Map Norker， 简 称 Map 进 程 ) LI Reduce T i EXE 


Fe ( Reduce Worker， 简 称 Reduce 进 程 ) 分 别 用 于 执行 Map 任 务 和 Reduce 任 务 。 
MapReduce 任 务 执行 流程 如 下 : 


1) 首先 从 用 户 提交 的 程序 fork 出 主 控 进 程 ， 主 控 进 程 局 动 后 将 切 分 任务 并 根据 输入 
文件 所 在 的 位 置 和 集群 信息 选择 机 器 fork 出 Map 或 者 Reduce 进 程 ; 用 户 提交 的 程序 
可 以 根据 不 同 的 命令 行 参数 执行 不 同 的 行为 。 


2) 主 控 进 程 将 切 分 好 的 任务 分 配给 Map 进 程 和 Reduce 进 程 执行 ， 任 务 切 分 和 任务 分 
配 可 以 并 行 执行 。 


3 ) Map 进 程 执 行 Map 任 务 : 读 取 相 应 的 输入 文件 ， 根 据 指定 的 输入 格式 不 断 地 读 取 
< key , value > 对 并 对 每 一 个 < key, value > 对 执行 用 户 自 定义 的 Map 函 数 。 


4 ) Map 进 程 执行 用 户 定 义 的 Map 函 数 : 不 断 地 往 本 地 内 存 缓冲 区 输出 中 间 < 
key, value > 对 结果 ， 等 到 缓冲 区 超过 一 定 大 小 时 写 入 到 本 地 磁盘 中 。Map 进 程 根据 
分 割 ( partition) 国 数 将 中 间 结 果 组 织 成 R 份 ， 便 于 后 续 Reduce 进 程 获取 。 


5 ) Map 任 务 执行 完成 时 ，Map 进 程 通过 心跳 向 主 控 进 程 汇报 ， 主 控 进 程 进一步 将 该 
信息 通知 Reduce 进 程 。Reduce 进 程 向 Map 进 程 请 求 传输 生成 的 中 间 结 果 数 据 。 这 个 
过 程 称 为 Shuffle。 当 Reduce 进 程 获取 完 折 有 的 Map 任 务 生成 的 中 间 结 果 时 ， 需 要 进 
行 排序 操作 。 


6 ) Reduce 进 程 执行 Reduce 任 务 : 对 中 间 结 果 的 每 一 个 相同 的 key 及 value 集 合 ， 执 
行 用 户 自 定义 的 Reduce 了 数 。Reduce 阔 数 的 输出 结果 被 写 入 到 最 终 的 输出 结果 ， 例 
如 分 布 式 文件 系统 Google File System 或 者 分 布 式 表格 系统 Bigtable。 


MapReduce 框 架 实 现时 主要 做 了 两 点 优化 : 


e 本 地 化 : 尽量 将 任务 分 配给 离 输 入 文件 最 近 的 Map 进 程 ， 如 同一 台 机 器 或 者 同一 个 
机 架 。 通 过 本 地 化 策略 ， 能 够 大 大 减少 传输 的 数据 量 。 


e 备 份 任务 : 如 果 某 个 Map 或 者 Reduce 任 务 执行 的 时 间 较 长 ， 主 控 进 程 会 生成 一 个 该 
任务 的 备份 并 分 配给 另外 一 个 空闲 的 Map 或 者 Reduce 进 程 。 在 大 集群 环境 下 ， 即 使 
所 有 机 器 的 配置 相同 ， 机 器 的 负载 不 同 也 会 导致 处 理 能 力 相差 很 大 ， 通 过 备份 任务 
减少 “ 拖 后 腿 ” 的 任务 ， 从 而 降低 整个 作业 的 总 体 执行 时 间 。 


13.3 MapReduce 扩 展 


MapReduce 框 架 有 效 地 解决 了 海量 数据 的 离线 批 处 理 问题 ， 在 各 大 互联 网 公司 得 到 
广泛 的 应 用 。 事 实 已 经 证 明了 MapReduce 巨 大 的 影响 力 ， 以 至 于 引发 了 一 系列 的 扩 
展 和 改进 。 这 些 扩展 包括 : 


eGoogle Tenzing : 基于 MapReduce 模 型 构建 SQL 执行 引擎 ， 使 得 数据 分 析 人 员 可 
以 直接 通过 SQL 语言 处 理 大 数据 。 


eMicrosoft Dryad : 将 MapReduce 模 型 从 一 个 简单 的 两 步 工作 流 扩 展 为 任何 函数 
集 的 组 合 ， 并 通过 一 个 有 向 无 环 图 来 表示 消 数 之 间 的 工作 流 。 


eGoogle Pregel : 用 于 图 模型 迭代 计算 ， 这 种 场景 下 Pregel 的 性 能 远 远 好 于 


MapReduce, 
13.3.1 Google Tenzing 


Google Tenzing 是 一 个 构建 在 MapReduce 之 上 的 SQL 执行 引擎， 支持 SQL 查询 且 能 


够 扩展 到 成 干 上 万 台 机 器 ， 极 大 地 方便 了 数据 分 析 人 员 。 


Tenzing 系 统 有 四 个 主要 组 件 : 分 布 式 Worker 池 、 查 询 服 务 器 、 客 户 端 接口 和 元 数 
据 服务 器 ， 如 图 13 -2 所 示 。 


ri og. Ma bò 
& Pm 


( WebUI, API, CLI) 


fr if li Iy de 


分 布 式 


Master Us nr ua Worker it i 


多 个 Master 多 个 Worker 





13-2 Tenzing 整 体 架 构 

e 查 询 服 务 器 (Query Server) : 作为 连接 客户 端 和 worker 池 的 中 间 桥 梁 而 存在。 
查询 服务 器 会 解析 客户 端 发 送 的 查询 请 求 ， 进 行 SQ&L 优 化 ， 然 后 将 执行 计划 发 送 给 分 
布 式 Worker 池 执行 。Tenzing 支 持 基 于 规则 ( rule-based optimizer ) 以 及 基于 
开销 ( cost-based optimizer ) 两 种 优化 模式 。 


e 分 布 式 Worker 池 : 作为 执行 系统 ， 它 会 根据 查询 服务 器 生成 的 执行 计划 运行 


MapReduce 任 务 。 为 了 降低 查询 延 时 ，Tenzing 不 是 每 次 都 重新 生成 新 进程 ， 而 是 让 
进程 一 直 处 于 运行 状态 。Worker 池 包 合 master 和 worker 两 种 节操 ， 其 中 ，master 
对 应 MapReduce 框 架 中 的 master 进 程 ，worker 对 应 MapReduce 框 架 中 的 map 和 
heduce 进 程 。 另 外 ， 还 有 一 个 称 为 master 监 听 者 (master watcher ) 的 守护 进 
程 ， 查 询 服务 器 通过 master 监 听 者 获取 master 信 息 。 


e 元 数据 服务 器 (Metadata Server) : 存储 和 获取 表格 schema、 访 问 控制 列表 
(Access Control List,ACL) 等 全 局 元 数据 。 元 数据 服务 器 使 用 Bigtable 作 为 
持久 化 的 后 台 存 储 。 


e 客 户 端 接口 : Tenzing 提 供 三 类 客户 端 接口 ， 包 括 API、 命 令 行 客户 端 ( CLI ) 以 及 


Web UI, 


efzíi& (Storage) : 分 布 式 worker 池 中 的 master 和 worker 进 程 执 行 MapReduce 任 
务 时 需要 读 写 存储 服务 。 另 外 ， 查 询 服 务 器 会 从 存储 服务 获取 执行 结果 。 


2 .查询 流程 
1) 用 户 通过 Web UI、CLI 或 者 API 向 查询 服务 器 提交 查询 。 
2 ) 查询 服务 器 将 查询 请 求解 析 为 一 个 中 间 语 法 树 。 


3 ) 查询 服务 器 从 元 数据 服务 器 获取 相应 的 元 数据 ， 然 后 创建 一 个 更 加 完整 的 中 间 格 
ZU. 


4 ) 优化 器 扫 摘 访 中 间 格 式 进行 各 种 优化 ， 生 成 物理 得 询 计划 。 


5 ) 优化 后 的 物理 查询 计划 由 一 个 或 多 个 MapReduce 作 业 组 成 。 对 于 每 个 MapReduce 


作业 ， 查 询 服 务 器 通过 master 监 听 者 找到 一 个 可 用 的 master,master 将 该 作业 划分 


为 多 个 任务 。 


6 ) 空 朵 的 worker 从 master 拉 取 已 就 绪 的 任务 。Reduce 进 程 会 将 它们 的 结果 写 入 到 
一 个 中 间 人 存储 区 域 中 。 


7 ) 查询 服务 器 监控 这 些 中 间 存 储 区 域 ， 收 集中 间 结 果 ， 并 流失 地 返回 给 客户 端 。 
3.SQL 运 算 符 映 射 到 MapReduce 


查询 服务 器 负责 将 用 户 的 SQL 操作 转化 为 MapReduce 作 业 ， 本 蔬 介 绍 各 个 SQL 物理 运 
算 符 对 应 的 MapReduce 实 现 。 


( 1 ) 选择 和 投影 
选择 运算 符 ac (R ) 的 一 种 MapReduce 实 现 如 下 。 


MapERZ : 对 R 中 的 每 个 元 素 t， 检 测 它 是 否 满 足 条 件 C。 如 果 满足 ， 则 产生 一 
个 “ 键 - 值 ” 对 (t,t ) 。 也 融 是 说 ， 键 和 值 都 是 t。 


Reduce£RZl : Reduce 的 作用 类 似 于 恒等式 ， 它 仅仅 将 每 个 “ 键 - 值 ” 对 传递 到 输出 


B. 


nk 


投影 运算 的 处 理 和 选择 运算 类 似 ， 不 同 的 是 ， 投 影 运算 可 能 会 产生 多 个 相同 的 元 
组 ， 因 此 Reduce 函 数 必须 要 剔除 元 余 元 组 。 可 以 采用 如 下 方式 实现 投影 运算 符 
TS (R). 


Map 阔 数 : XJRFRBJ&ET UB , JBSSUSIERIES EA CES "HB SEERIS SIT UAH' , fit — 
个 “ 键 - 值 ” 对 (t' vt' ) 。 


ReduceER2ZA : 对 任意 Map 任 务 产生 的 每 个 键 t'， 将 存在 一 个 或 多 个 “ 键 - 值 ” 对 
(t',t') ，Reduce 国 数 将 (t' , [t' , t", t€ ]) E8879 (t' ,t') ,以 
保证 对 该 键 t' 只 产生 一 个 (t' ,t')5x. 


Tenzing 执 行 时 会 做 一 些 优化 ， 例 如 选择 运算 符 下 移 到 存储 层 ; 如 果 存 储 层 支 持 列 
式 存储 ，Tenzing 只 扫描 那些 查询 执行 必须 的 列 。 


( 2 ) 分 组 和 聚合 


假定 对 关系 R ( A,B , C ) 按照 字段 A 分 组 ,并 计算 每 个 分 组 中 所 有 元 组 的 字段 8 之 
和 。 可 以 采用 如 下 方式 实现 yA, SUM ( B) (R). 


MapERIZA : 对 于 每 个 元 组 ,生成 “ 键 - 值 ” 对 (a,b). 


Reduce% : 每 个 键 a 代 表 一 个 分 组 ,对 与 键 a 相关 的 字段 8 的 值 的 列表 [b1 , b2, 
"n , bn] 执行 SUM 操 作 ， 输 出 结果 为 ( a, SUM (b1, b2, ....., bn) ) 。 


Tenzing 文 持 基 于 哈 希 的 聚合 操作 ， 首 先 ， 放 松 底层 MapReduce 框 架 的 限制 ， 
shuffle 时 保证 所 有 键 相 同 的 “ 键 - 值 ” 对 属于 同一 个 Reduce 任 务 ， 但 是 并 不 要 求 按 
照 键 有 序 排列 。 其 次 ，Reduce 函 数 采 用 基于 哈 希 的 方法 对 数据 分 组 并 计算 聚合 结 
R, 


(3) 多 表 连 接 


大 表 连 接 是 分 布 式 数据 库 的 难题 ，MapReduce 模 型 能 够 有 效 地 解决 这 一 类 问题 。 常 
见 的 连接 算法 包括 Sort Merge Join, Hash Join 以 及 Nested Loop Join, 


假设 需要 将 R ( A,B ) IS ( B, C) 进行 目 然 连 接 运 算 ， 即 寻找 字段 B 相 同 的 元 组 。 可 


以 通过 sort Merge Join 实 现 如 下 : 


MapERZX : 对 于 R 中 的 每 个 元 组 (a,b) ， 生 成 “ 键 - 值 ” XJ (b, (R,a) )， 对 s 中 
的 每 个 元 组 (b,c )， 生 成 “ 键 - 值 ” XE (b, (S,c) ). 


ReducePAZA : 每 个 键 值 b 会 与 一 系列 对 相关 联 ， 这 些 对 要 么 来 自 ( R,a ) ， 要 么 来 自 
(S,c). 。 键 pb 对 应 的 输出 结果 是 (b,[ (al,b,cl) ，(a2,，b,c2) ，.……. ] ) ， 
也 就 是 说 ， 与 b 相 关联 的 元 组 列表 由 来 自 R 和 Ss 中 的 具有 共同 b 值 的 元 组 组 合 而 成 。 


如 果 两 张 表格 都 很 大 ， 且 二 者 的 大 小 比较 接近 ，Join 字 段 也 没有 索引 ，Sort Merge 
Join 往 往 比较 高 效 。 然 而 ， 如 果 一 张 表格 相 比 另外 一 张 表格 要 大 很 多 ，Hash Join 
往往 更 加 合适 。 


假设 R ( A,B ) FES (B, C) 大 很 多 ， 可 以 通过 Hash Join 实 现 自然 连接 。Tenzing 中 


一 次 Hash Join 需 要 执行 三 个 MapReduce 任 务 。 


MR1 : ER (A,B ) 按照 字段 B 划 分 为 N 个 哈 硕 分 区 ， 记 为 RL，R2，…… , RN ; 
MR2 : JŠS (B,C ) 按照 字段 B 划 分 为 N 个 哈 硕 分 区 ， 记 为 S1，S2，……， Sn ; 


MR3 : 每 个 哈 希 分 区 «Ri, Si > 对 应 一 个 Map 任 务 ， 这 个 Map 任 务 会 将 si 加 载 到 内 存 
中 。 对 于 Ri 中 的 每 个 元 组 ( a,b ) ， 生 成 (b, [(a,b,cl) ，(a,b,c2) ， 

T ] ) , rh, (b, [c1, c2, ...] ) 是 si 中 存储 的 元 组 。Reduce 的 作用 类 似 于 
恒等式 ， 输 出 每 个 传 入 的 “ 键 - 值 ”对 。 


Sort Merge Join 和 Hash Join 适 用 于 两 张 表格 都 不 能 够 存放 到 内 存 中 ， 且 连接 列 
没有 索引 的 场景 。 如 果 S (B,C) 在 B 列 有 索引 ，, 可 以 通过 Remote Lookup Join 实 现 
自然 连接 ， 如 下 : 


Map 国 数 : 对 于 R 中 的 每 个 元 组 (a,b) ， 通 过 索引 查询 Ss (B,C) 中 所 有 列 值 为 b 的 元 
2H, Æ (b, [(a,b,c1) , (a,b,c2) ，.……. ] ) 。 


Reduce 国 数 : Reduce 的 作用 类 似 于 恒等式 ， 输 出 每 个 传 入 的 “ 键 - 值 ”对 。 


AIRS ( B, C) 能 够 存放 到 内 存 中 ， 那 么 ，Map 进 程 在 执行 map 任 务 的 过 程 中 会 将 
S (B,C ) 的 所 有 元 组 缓存 在 本 地 ， 进一步 优化 执行 效率 。 另 外 ， 同 一 个 Map 进 程 可 


能 执行 多 个 map 任 务 ， 这 些 map 任 务 共享 一 份 S ( B,C ) 的 所 有 元 组 缓存 。 
13.3.2 Microsoft Dryad 


Microsoft Dryad 是 微软 研究 院 创建 的 研究 项 目 ， 主 要 用 来 提供 一 个 分 布 式 并 行 计 
算 平台 。 在 Dryad 平 台 上 ， 每 个 Dryad 工 作 流 被 表示 为 一 个 有 向 无 环 图 。 图 中 的 每 个 
节 点 表示 一 个 要 执行 的 程序 ， 节 氮 之 间 的 边 表示 数据 通道 中 数据 的 传输 方式 ， 其 可 
能 是 文件 、 管 道 、 共 享 内 存 、 网 络 RPC 等 。Dryard 工 作 流 如 图 13-3 所 示 。 
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13-3 Dryad 工 作 流 


每 个 节点 ( vertices ) 上 都 有 一 个 处 理 程序 在 运行 ， 并 且 通 过 数据 通道 
( channels ) 的 方式 在 它们 之 间 传 输 数 据 。 类 似 于 Map 和 Reduce 了 为数， 工作 流 中 的 


grep. sed, map, reduce, mergeSEERENRHJLAMÁARÉZ BAHT, RET TS EAE BO 
一 部 分 输入 。Dryad 的 主 控 进 程 (Job Manager ) 负责 将 整个 工作 分 割 成 多 个 任务 , 
并 分 友 给 多 个 节点 执行 。 每 个 节点 执行 完 任务 后 通知 主 控 进 程 ， 接 着 ， 主 控 进 程 会 
通知 后 续 节 点 获取 前 一 个 节点 的 输出 结果 。 等 到 后 续 节 点 的 输入 数据 全 部 准备 好 
后 ， 才 可 以 继续 执行 后 续 任务 。 


Dryad 与 MapReduce 具 有 的 共同 特性 束 是 ， 只 有 任务 完成 之 后 才 会 将 输出 传递 给 接收 
任务 。 如 果 某 个 任务 失败 ， 其 结果 将 不 会 传递 给 它 在 工作 流 中 的 任何 后 续 任务 。 
此 ， 主 控 进 程 可 以 在 其 他 计算 节点 上 重 局 该 任务 ， 同 时 不 用 担心 会 将 结果 重复 传递 
给 以 前 传 过 的 任务 。 


相 比 多 个 MapReduce 作 业 串 联 模型 ，Dryad 模 型 的 优势 在 于 不 需要 将 每 个 MapReduce 
作业 输出 的 临时 结果 存放 在 分 布 式 文件 系统 中 。 如 果 先 存储 前 一 个 MapReduce 作 业 
的 结果 ， 然 后 再 启动 新 的 MapReduce 作 业 ， 那 么 ， 这 种 开销 很 难 避 免 。 


13.3.3 Google Pregel 


Google Pregel 用 于 图 模型 迭代 计算 ， 图 中 的 每 个 节点 对 应 一 个 任务 ， 每 个 图 节点 
会 产生 输出 消息 给 图 中 与 它 关 联 的 后 续 节 点 ， 而 每 个 节点 会 对 从 其 他 节点 传 入 的 输 
入 消息 进行 处 理 。 

Pregel 中 将 计算 组 织 成 “ 超 步 ” ( superstep ) 。 在 每 个 超 步 中 ， 每 个 节点 在 上 一 


步 收 到 的 所 有 消息 将 被 处 理 ， 并 且 将 处 理 完 后 的 结果 传递 给 后 续 节 后。 


Pregel 采 用 了 BSP (Bulk Sychronous Parallel, 整体 同步 并 行 计算 ) 模型 。 
个 “ 超 步 ”分 为 三 个 步骤 : 每 个 节点 首先 执行 本 地 计算 ， 接 着 将 本 地 计算 的 结果 发 
送 给 图 中 相 邻 的 节点 ， 最 后 执行 一 次 栅栏 同步 ， 等 待 所 有 节点 的 前 两 步 操作 结束 。 


Pregelfi E ERI EBAEITMÉAATSEL, ISRUAYETVARKBSESSRISCH EC EAR 
好 ， 况 明 结果 已 经 收敛 ， 可 以 终止 迭代 。 
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本 地 计算 
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13-4 Pregel BSP 计 算 模型 


假设 有 一 个 市 边 权 重 的 图 ， 我 们 的 目标 是 对 图 中 的 每 个 节点 计算 到 其 他 任 一 节 点 的 
最 短路 径 长 度 。 一 开始 ， 每 个 图 节点 a 都 保存 了 诸如 ( b,w ) 对 的 集合 ， 这 表示 a 到 b 
的 边 权 重 为 w。 


(1) 超 步 


每 个 节点 会 将 (a,b,w) 传递 给 图 中 与 它 关 联 的 后 续 节 点 。 当 节点 c 收 到 三 元 组 
( a,b,w ) 时 ， 它 会 重新 计算 c 到 b 的 最 短 距离 ， 如 果 w+v <u ( 假设 当前 已 知 的 c 到 a 
的 最 短 距离 为 v, c 到 b 的 最 短 距离 为 u ) ， 那 么 ， 更 新 c 到 b 的 最 短 距离 为 w+rv。 最 后 ， 


消息 (cb, wv ) 会 传递 给 后 续 节 后。 


( 2 ) 终止 条 件 


当 所 有 节操 在 执行 某 个 超 步 时 都 没有 更 新 到 其 他 节点 的 最 短 距离 时 ， 说 明 已 经 计算 
出 想 要 的 结果 ， 整 个 迭代 过 程 可 以 结 


Pregel 通 过 检查 点 (checkpoint ) 的 方式 进行 容错 处 理 。 它 在 每 执行 完 一 个 超 步 之 

百 会 记录 整个 计算 的 现场 ， 即 记录 检查 点 情况 。 检 查 点 中 记录 了 这 一 轮 和 迭 代 中 每 个 
任务 的 全 部 状态 信息 ， 一 旦 后 续 某 个 计算 节点 失效 ，Prege1 将 从 最 近 的 检查 点 重启 
整个 超 步 。 尽 管 上 述 的 容错 策略 会 重 做 很 多 并 未 失效 的 任务 ， 但 是 实现 简单 。 考虑 
到 服务 器 故障 的 概率 不 高 ， 这 种 方法 在 大 多 数 时 候 还 是 令 人 满意 的 。 


13.4 流 式 计算 


MapReduce 及 其 扩展 解决 了 离线 批 处 理 问题 ， 但 是 无 法 保证 实时 性 。 对 于 实时 性 要 
求 高 的 场景 ， 可 以 采用 流 式 计算 或 者 实时 分 析 系 统 进行 处 理 。 


流 式 计算 (Stream Processing ) 解决 在 线 聚合 (Online Aggregation), 、 在 线 
过 滤 (Online Filter) 等 问题 ， 流 式 计算 同时 具有 存储 系统 和 计算 系统 的 特点 ， 

经 常 应 用 在 一 些 类 似 反 作弊 、 交 易 异 常 监控 等 场景 。 流 式 计算 的 操作 算 子 和 时 间 相 
关 ， 处 理 最 近 一 段 时 间 窗 口内 的 数据 。 


13.4.1 原理 


流 式 计算 强调 的 是 数据 流 的 实时 性 。MapReduce 系 统 主 要 解决 的 是 对 静态 数据 的 批 
量 处 理 ， 当 MapReduce 作 业 启 动 时 ， 已 经 准备 好 了 输入 数据 ， 比 如 保存 在 分 布 式 文 
件 系统 上 。 而 流 式 计算 系统 在 局 动 时 ， 输 入 数据 一 般 并 没有 完全 到 位 ， 而 是 经 由 外 
部 数据 流 源源 不 断 地 流入 。 另 外 ， 流 式 计 算 并 不 像 批 处 理 系统 那样 ， 重 视 数 据 处 理 
的 总 吞吐 量 ， 而 是 更 加 重视 对 数据 处 理 的 延迟 。 


MapReduce 及 其 扩展 采用 的 是 一 种 比较 静态 的 模型 ， 如 果 用 它 来 做 数据 流 的 处 理 ， 
首先 需要 将 数据 流 缓存 并 分 块 ， 然 后 放 入 集群 计算 。 如 果 MapReduce 每 次 处 理 的 数 
据 量 较 小 ， 缓 存 数 据 流 的 时 间 较 短 ， 但 是 ，MapReduce 框 架 造 成 的 额外 开销 将 会 占 
很 大 比重 ; 如 果 MapReduce 每 次 处 理 的 数据 量 较 大 ， 缓 存 数 据 流 的 时 间 会 很 长 ， 无 
法 满足 实时 性 的 要 求 。 


流 式 计算 系统 架构 如 图 13-5 所 示 。 
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源 数 据 写 入 到 ) 流 处 理 节点 ， 流 处 理 节点 内 部 运行 用 户 自 定 义 的 钩子 消 数 对 输入 流 进 
行 处 理 ， 处 理 完 后 根据 一 定 的 规则 转发 给 下 游 的 流 处 理 节 点 继续 处 理 。 另 外 ， 系 统 
中 往往 还 有 管理 节点 ， 用 来 管理 流 处 理 节 点 的 状态 以 及 节点 之 间 的 路 由 规则 。 


ERU ERE EE : 


eEC GER: 计算 最 近 一 段 时 间 窗 口内 数据 的 聚合 值 ， 如 max、min、avg、sum、 


count 等 。 


e 过 滤 函 数 : 过 滤 最 近 一 段 时 间 窗 口内 满足 某 些 特性 的 数据 ， 如 过 滤 1 秒 钟 内 重复 的 
Rad. 


如 果 考 虑 机 器 故障 ， 问 题 变 得 复杂 。 上 游 的 处 理 节 后 出 现 故 障 时 ， 下 游 有 两 种 选 
择 : 第 一 种 选择 是 等 待 上 游 恢 复 服 务 ， 保 证 数据 一 致 性 ; 第 二 种 选择 是 继续 处 理 ， 
优先 保证 可 用 性 ， 等 到 上 游 恢 复 后 再 修复 错误 的 计算 结果 。 


流 处 理 节 点 可 以 通过 主 备 同步 (Master/Slave ) 的 方式 容错 ， 即 将 数据 强 同步 到 备 
机 ， 如 果 主 机 出 现 故 障 ， 备 机 自动 切换 为 主机 继续 提供 服务 。 然 而 ， 这 种 方式 的 代 
价 很 高 ， 且 流 式 处 理 系统 往往 对 错误 有 一 定 的 容忍 度 ， 实 际 应 用 时 经 常 选择 其 他 代 
价 更 低 的 容错 方式 。 


13.4.2 Yahoo S4 


Yahoo Ss4 最 初 是 Yahoo 为 了 提高 搜索 广告 有 效 点 击 率 而 开发 的 一 个 流 式 处 理 系 统 。 
S54 的 主要 设计 目标 是 提供 一 种 简单 的 编程 接口 来 处 理 数据 流 ， 使 得 用 户 可 以 定制 流 
式 计算 的 操作 算 子 。 在 容错 设计 上 ，S4 做 得 比较 简单 : 一 旦 s4 集 群 中 的 某 个 刁 点 故 
障 ， 会 自动 切换 到 另外 一 个 备用 节点 ， 但 是 原 节点 的 内 存 状态 将 丢失。 这 种 方式 虽 
然 可 能 丢失 一 部 分 数据 ， 但 是 成 本 较 低 。 考 虑 到 服务 器 故障 的 概率 很 低 ， 能 够 很 好 
地 满足 流 式 计算 业务 需求 。 


s4 中 每 个 流 处 理 节点 称 为 一 个 处 理 节 点 (Processing Node,PN ) ， 其 主要 工作 是 


监听 事件 ， 当 事件 到 达 时 调用 合适 的 处 理 元 (Processing Elements ,PE ) 处 理事 
件 。 如 果 PE 有 输出 ， 则 还 需 调用 通信 层 接口 进行 事件 的 分 友和 输出 ， 如 图 13-6 所 
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13-6 S4 处 理 节点 内 部 模块 


事件 监听 器 ( Event Listener) 负责 监听 事件 并 转交 给 PE 容器 ( Processing 

Element Container,PEC) ， 由 PEC 交 给 合适 的 PE 处 理 业 务 逻 辑 。 配 置 文件 中 会 配 
置 PE 原型 (PE prototype) ， 包 括 其 功能 、 处 理 的 事件 类 型 (event type). X 
心 的 key 以 及 关心 的 key 值 。 每 个 PE 只 负责 处 理 自己 所 关心 的 事件 ， 也 束 是 说， 只 有 
当 事 件 类 型 、 key 类 型 和 key 值 都 匹配 时 ， 才 会 交 由 该 PE 进行 计算 处 理 。 PE 处理 完 逻 


辑 后 根据 其 定义 的 输出 方法 可 以 输出 事件 ， 事 件 交 由 分 友 器 ( Dispatcher ) 与 通信 


Æ ( Communication Layer ) 进行 交互 并 由 输出 器 (Emitter ) 输出 至 下 一 个 逻辑 


节点 。 输 出 器 通过 对 事件 的 类 型 、key 类 型 、key 值 计算 哈 希 值 ， 以 路 由 到 配置 文件 
中 指定 的 PN。 


通信 层 提供 集群 路 由 (Routing ) 、 负 载 均 衡 (Load Balancing), WERS EIE 
(Failover Management ) ZT kal IET RARI ( 存放 在 Zookeeper 

上 ) 。 当 检测 到 节点 故障 时 ， 会 切换 到 备用 节点 ， 并 自动 更 新 映射 天 系 。 通 信 层 隐 
藏 的 映射 使 得 PN 友 送 消息 时 只 需要 关心 交 辑 节点 而 不 用 关心 物理 节操 。 


13.5 实时 分 析 


海量 数据 离线 分 析 对 于 MapReduce 这 样 的 批 处 理 系统 挑战 并 不 大 ， 如 果 要 求实 时 , 
又 分 为 两 种 情况 : 如 果 查 询 模 式 单 一 ， 那么 ， 可 以 通过 MapReduce 预 处 理 后 将 最 终 
结果 导入 到 在 线 系统 提供 实时 查询 ; 如 果 查 询 模 式 复杂 ， 例 如 涉及 多 个 列 任意 组 合 
查询 ， 那 么 ， 只 能 通过 实时 分 析 系 统 解决 。 实 时 分 析 系 统 融合 了 并 行 数据 库 和 云 计 
算 这 两 类 技术 ， 能 够 从 海量 数据 中 快速 分 析出 汇 局 结果 。 

13.5.1 MPP 架 构 

并 行 数 据 库 往往 采用 MPP (Massively Parallel Processing， 大 规模 并 行 处 理 ) 
架构 。MPP 架 构 是 一 种 不 共享 的 结构 ， 每 个 节点 可 以 运行 自己 的 操作 系统 、 数 据 库 


等 。 每 个 节点 内 的 CPU 不 能 访问 另 一 个 节点 的 内 存 ， PALAA SEEMA 
互联 网 络 实现 的 。 


如 图 13-9 所 示 ， 将 数据 分 布 到 多 个 节点 ， 每 个 忆 点 扫描 本 地 数据 ， 并 由 Merge 操 作 
符 执 行 结果 汇 忆 。 





13-9 MPP Merge 操 作 符 

常见 的 数据 分 布 算法 有 两 种 : 

e 范 围 分 区 (Range partitioning) : 按照 范围 划分 数据 。 

e 哈 希 分 区 (Hashing) : 根据 哈 希 了 消 数 计算 结果 将 每 个 元 组 分 配给 相应 的 节点。 


Mergef ERE : 系统 中 存在 一 个 或 者 多 个 合并 节操 ， 它 会 发 送 命 令 给 各 个 数据 分 片 请 
求 相应 的 数据 ， 每 个 数据 分 片 所 在 的 节 点 扫 摘 本 地 数据 ， 排 序 后 回复 合并 节点 ， 由 
合并 节点 通过 merge 操 作 符 执行 数据 汇总 。Merge 操 作 符 是 一 个 统称 ， 涉 及 的 操作 可 
能 是 limit、order by, group by、join 等 。 这 个 过 程 相当 于 执行 一 个 Reduce 任 
务 个 数 为 1 的 MapReduce 作 业 ， 不 同 的 是 ， 这 里 不 需要 考虑 执行 过 程 中 服务 器 出 现 故 
障 的 情况 。 


如 果 Merge 节 点 处 理 的 数据 量 特别 大 ， 可 以 通过 Sp1it 操 作 符 将 数据 划分 到 多 个 节 
点 ， 每 个 节点 对 一 部 分 数据 执行 Sgroup by、join 等 操作 后 再 合并 最 终结 果 。 


如 图 13-16， 假 如 需要 执行 “select*xfrom A,B where A.x-B.y" ,可 以 分 别 根据 
A.x 和 和 B .x 的 哈 希 值 将 表 A 和 B 划 分 为 A6、Al 以 及 B6、B1。 由 两 个 节点 分 别 对 A6、B@ 
以 及 A1、B1 执 行 join 操 作 后 再 合并 join 结果 。 





13-10 MPP Split 操 作 符 


并 行 数据 库 的 SQL 查询 和 MapReduce 计 算 有 些 类 似 ， 可 以 认为 MapReduce 模 型 是 一 种 
更 高 层次 的 抽象 。 由 于 考虑 问题 的 角度 不 同 ， 并 行 数据 库 处 理 的 SQL 查询 执行 时 间 通 
常 很 得， 出 现 异常 时 整个 操作 重 做 即 可 ， 不 需要 像 MapReduce 实 现 那 样 引 入 一 个 主 
控 节 点 管理 计算 节点 ， 监 控 计 算 节点 故障 ， 启 动 备 份 任务 等 。 


13.5.2 EMC Greenplum 


Greenplum 是 EMC 公 司 研 发 的 一 款 采 用 MPP 架 构 的 0LAP 产 品 ， 底层 基于 开源 的 


PostgreSQL 数 据 库 。 
1. 整 体 架 构 


如 图 13-11 ，Greenplum 系 统 主要 包含 两 种 角色 : Master 服 务 器 ( Master 

Server ) 和 Segment 服 务 器 ( Segment Server ) 。 在 Greenplum 中 每 个 表 都 是 分 

在 所 有 节点 上 的 。Master 服 务 器 首先 对 表 的 某 个 或 多 个 列 进行 哈 希 运算 ， 然 后 根据 
哈 希 结果 将 表 的 数据 分 布 到 segment 服 务 器 中 。 整 个 过 程 中 Master 服 务 器 不 存放 任 
何 用 户 数 据 ， 只 是 对 客户 端 进行 访问 控制 和 存储 表 分 布 逻 辑 的 元 数据 。 


Greenplum 支 持 两 种 访问 方式 : SQL 和 MapReduce。 用 户 将 SQL 操 作 语 句 发 送 给 
Master 服 务 器 ， 由 Master 服 务 器 执行 词法 分 析 、 语 法 分 析 ， 生 成 查询 计划 ， 并 将 查 
询 请 求 分 友 给 多 台 Segment 服 务 器 。 每 个 Segment 服 务 器 返回 部 分 结果 后 ，Master 
服务 器 会 进行 聚合 并 将 最 终结 果 返 回 给 用 户 。 除 了 高 效 查 询 ，Greenplum 还 支持 通 
过 数据 的 并 行 装载 ， 将 外 部 数据 并 行 装载 到 所 有 的 Segement 服 务 器 。 


SOL 
MapReduce 


Master 
服务 天 
查询 计划 和 分 发 


网 络 连接 


Segment 
服务 带 
查询 处 理 和 
数据 存储 


外 部 数据 源 
DEDE o 
数据 流入 等 
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2. 并 行 查 询 优化 器 


Greenplum 的 并 行 查 询 优化 器 负责 将 用 户 的 SQL 或 者 MapReduce 请 求 转化 为 物理 执行 
计划 。GreenpJIum 采 用 基于 代价 的 查询 优化 算法 ( cost-based optimization) , 
从 各 种 可 能 的 查询 计划 中 选择 一 个 代价 最 小 的 。Greenplum 优 化 器 会 考虑 集群 全 局 

统计 信息 ， 例 如 数据 分 布 ， 另 外 ， 除 了 考虑 单机 执行 的 CPU、 内 存 资 源 消耗 ， 还 需要 
考虑 数据 的 网 络 传输 开销 。 


Greenplum 除 了 生成 传统 关系 数据 库 的 物理 运算 符 ， 包 括 表格 扫描 (Scan). XS 
(Filter ) 、 聚 集 ( Aggregation), 、 排 序 ( Sort ) 、 联 表 (Join) ， 还 会 生成 一 
些 并 行 运 算 符 ， 用 来 描述 查询 执行 过 程 中 如 何在 节点 之 间 传 输 数 据 。 


e 重 新 分 布 ( Redistribute,N : N) : 类 似 MapReduce 中 的 shuffle 过 程 ， 每 个 计算 


节 点 将 目标 数据 重新 哈 希 后 分 散 到 所 有 其 他 节点 。 
ejiis ( Gather,N : 1 ) : 所 有 的 计算 节操 将 目标 数据 友 送 给 某 个 节点 ( 一 般 为 


Master 服 务 器 ) 。 


图 13-12 中 有 四 张 表 格 : 订单 信息 表 (orders) ， 订 单项 表 (lineitem) ， 顾 客 信 
息 表 ( customer ) 以 及 顾客 国籍 表 ( nation ) 。 其 中 ,orders 表 记录 了 订单 的 基 
本 信息 ， 包 括 订单 主键 ( o_orderkey ) 、 顾 客 主键 ( o_custkey ) 和 订单 有 友 生 日 期 
( o_orderdate ) ; lineitem 表 记录 了 订单 项 信息 ， 包 括 订单 主键 

( 1 orderkey ) 和 订单 金额 ( 1_price ) ; customer 表 记录 了 顾客 的 基本 信息 ， 包 
括 顾客 主键 (c custkey ) 和 顾客 国籍 主键 ( c nationkey) ; nation 表 记录 了 顾 
客 的 国籍 信息 ， 包 括 国籍 主键 ( n nationkey ) 和 国籍 名 称 (n_name ). Orders% 
和 1ineitem 表 通过 订单 主键 天 联 , orders 表 和 customer 表 通过 顾客 主键 关联 ， 
customer 表 和 nation 通 过 国籍 主键 关联 。 左 边 的 SQL 语句 查询 订单 发 生日 期 在 1994 
年 8 月 1 日 开始 三 个 月 内 的 所 有 订单 ， 按 照顾 客 分 组 ， 计 算 每 个 分 组 的 所 有 订单 交易 
额 ， 并 按照 交易 额 逆序 排列 。 在 右边 的 物理 查询 计划 中 ， 首 先 分 别 对 lineitem 和 和 
orders ,custom 和 nation 执 行 联 表 操作 ， 联 表 后 生成 的 结果 分 别 记 为 

Join table1 和 Join table2。 接 着 ， HjXjJoin table1 和 Join _table2 执 行 联 表 
操作 。 其 中 ，custom 和 nation 联 表 时 会 将 nation 表 格 的 数据 广播 ( Broadcast ) 


到 所 有 的 计算 节点 ( 共 4 个 ) ; Join_table1l 和 Join_table2 联 表 时 会 将 

Join _ table1 按 照 Join 列 (o custkey ) 哈 希 后 重新 分 布 ( Redistribute ) 到 所 有 
的 计算 节点 。 最 后 ， 每 个 计算 节点 都 有 一 部 分 Join_table1 和 Join_table2 的 数 
ja, 且 Join 列 (o_custkey 以 及 c_custkey ) 相同 的 数据 分 布 在 同一 个 计算 节点 ， 
每 个 计算 节点 分 别 执行 Hash Join、HashAggregate 以 及 Sort 操作 。 最 后 ， 将 每 个 
计算 节点 上 的 部 分 结果 汇总 (Gather ) 到 Master 服 务 器 ， 整 个 SQL 语句 执行 完成 。 


Gather 4:1 






Select 
c custkey, c name,n name 


sum(l price) as revenue 
From HashAggregate 


customer, orders, lineitem, nation 
Where HashJoin 
c custkey = o custkey 
Redistribute 4:4 


and | orderkey = o orderkey 
and o orderdate >= date ' 1994-08-01' 

顺序 扫描 顺序 扫描 
lineitem customer 








and o orderdate < date ' 1994-08-01' 
+ interval ' 3 month ' 
and c nationkey 2n nationkey 
Group by 
c custkey, c name,n name 


orders 
revenue desc —À 
顺序 扫描 


nation 
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13.5.3 HP Vertica 


Vertica 是 Michael Stonebraker 的 学 术 人 研究 项 目 C-Store 的 商业 版 本 ， 并 最 终 被 


惠普 公司 收购 。Vertica 在 架构 上 与 OceanBase 有 相似 之 处 ， 这 里 介绍 其 中 一 些 有 趣 
的 思想 


IN OSO 


1 .混合 存储 模型 


Vertica 的 数据 包含 两 个 部 分 : ROS (Read-Optimized Storage) 以 及 

WOS (Write-Optimized Storage )，WO0S 的 数据 在 内 存 中 且 不 排序 和 加 索引 , ROS 
的 数据 在 磁盘 中 有 序 县 压缩 存 储 。 后 台 的 “TUPLE MOVER” 会 不 断 地 将 数据 从 Wos 读 
出 并 往 ROS 更 新 ( 同时 完成 排序 和 索引 ) 。Vertica 的 这 种 设计 和 0ceanBase 很 相 
|J] ，ROS 对 应 0ceanBase 中 的 ChunkServer ,NOS 对 应 OceanBase 中 的 
UpdateServer。 由 于 后 台灯 用 “BULK” 的 方式 批量 更 新 ， 性 能 非常 好 。 


2. 多 映射 ( Projections ) 存储 


Vertica 没 有 采用 传统 天 系数 据 库 的 B 树 索引 ,而 是 匈 余 存储 一 张 表格 的 多 个 视图 ， 
定义 为 映射 。 


每 个 映射 包含 表格 的 部 分 询 ， 可 以 分 别 对 不 同 的 映射 定义 不 同 的 排序 主键 。 如 图 13- 
13 所 示 ， 系 统 中 有 一 张 表格 逻辑 上 包含 5 列 «A,B, C,D, E» ， 物 理 存储 成 三 个 映 
射 ， 分 别 为 : Projection1 (A,B,C, 主键 为 <A,B> ) , Projection2 (A,B, 

C ,主键 为 <B,A> ) 和 Projection3 (B,D, E, 主键 为 <B> ) 。 


a) "select A,B,C from table where A=1”=> 查询 Projectionl 
b) "select A,B,C from table where B=1”=> 查询 Projection2 
C) "select B,D from table where B=1”=> 查询 Projection3 


Vertica 通 常 维护 多 个 不 同 排序 的 有 重 革 的 映射 ， 尽 量 使 得 每 个 查询 的 数据 只 来 自 
一 个 映射 ， 以 提高 查询 性 能 。 为 了 支持 任意 列 查询 ， 需 要 保证 每 个 列 至 少 在 一 个 映 
射 中 出 现 。 





Projection 1 Projection 2 Projection 3 


EB <A, B» ER «B, A> EHH <B> 
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3. 列 式 存储 


Vertica 中 的 每 一 ?数据 独立 存储 在 磁盘 中 的 连续 块 上 。 查 询 数据 时 ，Vertica 只 需 
要 读 取 那 些 需 要 的 列 ， 而 不 是 被 选择 的 行 的 所 有 的 列 数 据 。 


4. 上 压缩 技术 


Vertica 根 据 数 据 类 型 、 基 数 ( 可 能 的 取 值 个 数 ) 、 排 序 目 动 对 数据 进行 压缩 ， 从 
而 最 小 化 每 列 占 用 的 空间 。 冲 用 的 压缩 算法 包括 : 


eRun Length Encoding: 列 类 型 为 整数 ， 基 数 较 小 且 有 序 ; 
e 位 图 索引 : 列 类 型 为 整数 ， 基 数 较 小 ; 


e 按 块 字典 压缩 : 列 类 型 为 字符 串 且 基数 较 小 ; 


eLZ 通 用 压缩 算法 : 其 他 列 值 特征 不 明显 的 场景 。 


基于 列 的 压缩 由 于 同样 的 数据 类 型 和 相同 的 取 值 学 围 ， 通 弟 会 大 幅度 提高 压缩 效 
果 。 另 外 ，vertica 还 支持 直接 在 压缩 后 的 数据 上 做 运算 。 


13.5.4 Google Dremel 


Google Dremel 是 Google 的 实时 分 析 系 统 ， 可 以 扩展 到 上 干 台 机 器 规模 ， 处 理 PB 级 
别 的 数据 。Dreme1 还 是 Google Bigquery 服 务 的 底层 存储 和 查询 引 掌 。 相 比 传统 的 
并 行 数据 库 ，Dremel 的 优势 在 于 可 扩展 性 ， 磁盘 的 顺序 读 取 速度 在 16eMB/s 上 下 , 
而 Dreme1 能 够 在 1 秒 内 处 理 1TB 的 数据 ， 即 使 压缩 率 为 16:1， 也 至 少 需要 1668 个 磁 
BHRR. 

1. 系 统 架 构 

Dremel 系 统 融 合 了 并 行 数据 库 和 和 Web 搜索 技术 。 首 先 ， 它 借鉴 了 Web 搜 索 中 的 “查询 
树 ” 的 概念 ， 将 一 个 巨大 复杂 的 查询 ， 分 割 成 大 量 较 小 的 查询 ， 使 其 能 并 友 地 在 大 


量 节 点 上 执行 。 其 次 ， 和 并 行 数据 库 类 似 ，Dreme1 提 供 了 一 个 SQL-1ike 的 接口 ，, 且 
支持 列 式 存储 。 


如 图 13-14 所 示 ，Dremel 采 用 多 层 并 层级 向 上 汇报 的 方式 实现 数据 运算 后 的 汇聚 ， 
Bp : 


fr if utr RU 


| i 


存储 层 ( 如 GFS ) 
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e 叶 子 节 点 执行 查询 后 得 到 部 分 结果 向 上 层 中 间 节 点 汇报 ; 

e 中 间 节 点 再 向 上 层 中 间 节 点 汇报 ( 此 层 可 以 重复 几 次 或 零 次 ) ， 
e 中 间 节 点 向 根 节点 汇报 最 终结 果 。 


Dremel 要 求 数据 在 向 上 层 汇 报 中 ， 是 可 以 聚集 的 ， 也 束 是 说 ， 在 逐 级 上 报 的 过 程 中 
数据 量 不 断 变 小 ， 最 终 的 结果 不 会 很 大 ， 确 保 在 一 台 机 器 能 够 承受 的 汽 围 。 


2.Dremel 与 MapReduce 的 比较 


MapReduce 的 输出 结果 直接 由 reduce 任 务 写 入 到 分 布 式 文件 系统 ， 因 此 ， 只 要 
reduce 任 务 个 数 足够 多 ， 输 出 结果 可 以 很 大 ; 而 Dremel 中 的 最 终 数 据 汇聚 到 一 个 根 


节操 ， 因 此 一 般 要 求 最 终 的 结果 集 比 较 小 ， 例 如 GB 级 别 以 下 。 


Dreme1 的 优势 在 于 实时 性 ， 只 要 服务 器 个 数 足够 多 ， 大 部 分 情况 下 能 够 在 3 秒 以 内 
处 理 完成 TB 级 别 数据 。 


本 书 由 “ePUBw.COM” 整 理 ，ePUBw.COM 提供 最 新 最 全 的 优质 
电子 书 下 载 ! ! |! 
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